Инструменты сайта


§

Вспомогательная страница к разделу ИНТЕРПОЛЯЦИЯ


Теорема Пирсона

Задача 1. На плоскости $ \mathbb R^2 $ найти точку, сумма квадратов расстояний до которой от точек $ P_1=(x_{1},y_1),\dots, P_n=(x_n,y_n) $ минимальна.

Т

Теорема 1. Координаты искомой точки определяются средними значениями координат точек $ \{ P_j\}_{j=1}^n $:

$$ \overline{x}=\frac{x_1+x_2+ \dots+x_n}{n},\quad \overline{y}=\frac{y_1+y_2+ \dots+y_n}{n}\ . $$

Задача 2. Найти прямую на плоскости, сумма квадратов расстояний до которой от точек $ \{P_j=(x_j,y_j)\}_{j=1}^n $ минимальна.

Если обозначить $ \delta_j $ расстояние от $ P_j $ до прямой $$ ax+by+c=0 \, , $$ то речь о поиске $$ \min_{(a,b,c)\in \mathbb R^3} \left(\sum_{j=1}^n \delta_j^2 \right) \, . $$

Т

Теорема 2 [Пирсон]1). Искомый минимум равен минимальному положительному корню $ \lambda_{min} $ полинома

$$ f(\lambda):=\left| \begin{array}{cc} \displaystyle \sum_{j=1}^n (x_j-\overline{x})^2 - \lambda & \displaystyle \sum_{j=1}^n (x_j-\overline{x})(y_j-\overline{y}) \\ \displaystyle \sum_{j=1}^n (x_j-\overline{x})(y_j-\overline{y}) & \displaystyle \sum_{j=1}^n (y_j-\overline{y})^2 - \lambda \end{array} \right| \, . $$

Доказательство. Расстояние от точки $ (x_j,y_j) $ до прямой $ax+by+c=0$ вычисляется по формуле $$ \delta_j=\frac{|ax_j+by_j+c|}{(a^2+b^2)^{1/2}} \, . $$ Для поиска минимума функции $$ F(a,b,c):= \sum_{j=1}^n \frac{(ax_j+by_j+c)^2}{a^2+b^2} $$ (рациональной!) составляем систему уравнений для ее стационарных точек $$ \frac{\partial F}{\partial a}=\frac{2(a^2+b^2)\sum_{j=1}^n (ax_j+by_j+c)x_j -2\,a \sum_{j=1}^n (ax_j+by_j+c)^2}{(a^2+b^2)^2}=0\, , $$ $$ \frac{\partial F}{\partial b}=\frac{2(a^2+b^2)\sum_{j=1}^n (ax_j+by_j+c)y_j -2\,b \sum_{j=1}^n (ax_j+by_j+c)^2}{(a^2+b^2)^2}=0\, , $$ $$ \frac{\partial F}{\partial c}=\frac{2 \sum_{j=1}^n (ax_j+by_j+c)}{a^2+b^2}=0 \, . $$ Введем новую переменную $$z:=F(a,b,c) \, . $$ На вещественных решениях системы величина переменной $ z $ равна критическому значению функции $ F $. Перепишем систему с использованием этой новой переменной: $$ \left\{ \begin{array}{lll} \sum_{j=1}^n (ax_j+by_j+c)x_j -a z&=&0 \\ \sum_{j=1}^n (ax_j+by_j+c)y_j -b z&=&0 \\ \sum_{j=1}^n (ax_j+by_j+c) &=&0 \end{array} \right. $$ или $$ \left\{ \begin{array}{lllll} a \left(\sum_{j=1}^n x_j^2 -z \right) & +b \sum_{j=1}^n x_j y_j & +c \sum_{j=1}^n x_j &=&0 & \\ a \sum_{j=1}^n x_jy_j & +b \left( \sum_{j=1}^n y_j^2 -z \right) & +c \sum_{j=1}^n y_j &=&0 & \qquad {\color{Red}{ (1)} } \\ a \sum_{j=1}^n x_j & +b \sum_{j=1}^n y_j & +c n &=&0 & \end{array} \right. $$ (в предположении $a^2+b^2\ne 0 $). Рассматриваемая относительно переменных $a,b,c $ получившаяся система оказывается линейной однородной. Необходимым и достаточным условием существования у нее нетривиального решения является равенство нулю ее определителя: $$ \left| \begin{array}{ccc} \displaystyle \sum_{j=1}^n x_j^2 - z & \displaystyle \sum_{j=1}^n x_jy_j & \displaystyle \sum_{j=1}^n x_j \\ \displaystyle \sum_{j=1}^n x_jy_j & \displaystyle \sum_{j=1}^n y_j^2 - z & \displaystyle \sum_{j=1}^n y_j \\ \displaystyle \sum_{j=1}^n x_j & \displaystyle \sum_{j=1}^n y_j & n \end{array} \right|=0 \, \qquad {\color{Red}{ (2)} } . $$ Функция $ F(a,b,c) $ ограничена снизу: $ F\ge 0 $. Если точная нижняя грань ее значений достижима2), то она достижима в стационарной точке. Тогда значение $ z $ должно равняться минимальному неотрицательному корню квадратного полинома от $ z $. Теперь преобразуем полученное его детерминантное представление в определитель из формулировки теоремы. С этой целью прибавим к первой строке определителя $\color{Red}{ (2)} $ последнюю строку, домноженную на $ \overline{x} $. Первая строка преобразуется к виду $$ \left[ \sum_{j=1}^n x_j^2 - \overline{x} \sum_{j=1}^n x_j - z, \ \sum_{j=1}^n x_jy_j - \overline{x} \sum_{j=1}^n y_j,\ 0 \right]= \left[ \sum_{j=1}^n x_j(x_j - \overline{x}) - z,\ \sum_{j=1}^n y_j(x_j - \overline{x}),\ 0 \right]= $$ $$ =\left[ \sum_{j=1}^n (x_j - \overline{x})^2 - z,\ \sum_{j=1}^n (x_j - \overline{x})(y_j - \overline{y}),\ 0 \right] $$ поскольку $$ \sum_{j=1}^n \overline{x} (x_j - \overline{x}) = \overline{x} \sum_{j=1}^n (x_j - \overline{x}) =0 \, . $$ Аналогичным способом, прибавлением ко второй строке определителя $\color{Red}{ (2)} $ его третьей строки, домноженной на $ \overline{y} $, получаем вторую строку в виде $$ =\left[ \sum_{j=1}^n (x_j-\overline{x})(y_j-\overline{y}),\ \sum_{j=1}^n (y_j-\overline{y})^2 - z,\ 0 \right] \, . $$ Разложением получившегося определителя по последнему столбцу приходим к уравнению из теоремы.

Далее, все корни этого уравнения вещественны и неотрицательны. Можно доказать это применением неравенства Коши-Буняковского. С другой стороны, для доказательства можно применить и более общий теоретический результат, который позволит распространить результат теоремы в $\mathbb R^3 $ (и даже в пространства бóльших размерностей). Дело в том, что полином $ f(\lambda) $ является характеристическим полиномом матрицы $$ G=\left(\begin{array}{cc} \displaystyle \sum_{j=1}^n (x_j-\overline{x})^2 & \displaystyle \sum_{j=1}^n (x_j-\overline{x})(y_j-\overline{y}) \\ \displaystyle \sum_{j=1}^n (x_j-\overline{x})(y_j-\overline{y}) & \displaystyle \sum_{j=1}^n (y_j-\overline{y})^2 \end{array} \right) \, , $$ которую можно интерпретировать как матрицу Грама системы векторов $$ \left\{ (x_1-\overline{x},\dots, x_n-\overline{x}), (y_1-\overline{y},\dots, y_n-\overline{y}) \right\} \, \qquad \color{Red}{ (3)} $$ при стандартном способе задания скалярного произведения в $\mathbb R^n $. Доказывается (см. ЗДЕСЬ), что корни характеристического полинома матрицы Грама (т.е. ее собственные числа) всегда вещественны и неотрицательны. Они положительны тогда и только тогда, когда $ \det G \ne 0 $, т.е. векторы $\color{Red}{ (3)} $ линейно независимы; иначе говоря, когда точки $\{P_j\} $ не лежат на одной прямой.

В этом предположении, $ \min_{(a,b,c)\in \mathbb R^3} F(a,b,c) $ достигается на минимальном собственном числе $ \lambda_{min} $ характеристического полинома матрицы $ G $. Найдем теперь уравнение соответствующей «минимизирующей» прямой, дополнительно предположив, что собственные числа матрицы $ G $ различны. Коэффициенты этого уравнения определяются из системы $ {\color{Red}{ (1)} } $ при подстановке туда $ z= \lambda_{min} $. Из последнего уравнения этой системы очевидно, что прямая проходит через точку $ (\overline{x}, \overline{y}) $. Координаты вектора нормали $ (a,b) $ к прямой определяются из системы уравнений $$ \left(\begin{array}{cc} \displaystyle \sum_{j=1}^n (x_j-\overline{x})^2 - \lambda_{min} & \displaystyle \sum_{j=1}^n (x_j-\overline{x})(y_j-\overline{y}) \\ \displaystyle \sum_{j=1}^n (x_j-\overline{x})(y_j-\overline{y}) & \displaystyle \sum_{j=1}^n (y_j-\overline{y})^2 - \lambda_{min} \end{array} \right) \left(\begin{array}{c} a \\ b \end{array} \right)= \left(\begin{array}{c} 0 \\ 0 \end{array} \right) \, , $$ т.е. вектор нормали оказывается собственным вектором матрицы $ G $, принадлежащим $ \lambda_{min} $. Ввиду предположенной различности собственных чисел матрицы, из системы уравнений этот вектор определяется однозначно, с точностью до скалярного сомножителя. Направляющий же вектор прямой перпендикулярен вектору нормали. Но тогда — по свойству собственных векторов симметричной матрицы — этот вектор должен быть собственным вектором матрицы $ G $, принадлежащим второму собственному числу, т.е. $\lambda_{max} $.

По аналогии хочется утверждать, что собственный вектор, соответствующий числу $ \lambda_{min} $ будет направляющим вектором прямой, обеспечивающей максимум сумме квадратов. Однако, это утверждение неверно: $$ \max_{(a,b,c)\in \mathbb R^3} F(a,b,c) = + \infty $$ Утверждение будет верно, если мы добавим условие «…среди всех прямых, проходящих через точку $ (\overline{x},\overline{y}) $».
П

Пример [Пирсон]. Построить прямую из теоремы $ 2 $ для точек

$$ \begin{array}{c|cccccccccc} x & 0.0 & 0.9 & 1.8 & 2.6 & 3.3 & 4.4 & 5.2 & 6.1 & 6.5 & 7.4 \\ \hline y & 5.9 & 5.4 & 4.4 & 4.6 & 3.5 & 3.7 & 2.8 & 2.8 & 2.4 & 1.5 \end{array} $$

Решение. Здесь $ n=10 $ и $$ \sum_{j=1}^{10} x_j= 38.2,\ \sum_{j=1}^{10} y_j= 37.0 \quad \Rightarrow \quad \overline x =3.82, \overline y = 3.70 \, . $$ $$ G=\left[ \begin {array}{rr} 56.396&- 30.430 \\ - 30.430& 17.220 \end {array} \right] $$ Характеристический полином $$ f(\lambda)=\lambda^2-73.616\,\lambda+45.15422 $$ имеет корни $$ \lambda_1 \approx 0.618573,\ \lambda_2 \approx 72.997427 \, . $$ Собственные векторы, принадлежащие этим собственным числам: $$ \approx \left[ 0.478924, 0.877856\right]^{\top} \quad \mbox{и} \quad \approx \left[ 0.877856, - 0.478924\right]^{\top} $$ соответственно; оба нормированы. Сумма квадратов расстояний от заданных точек до ближайшей к ним прямой равна $ \lambda_1 $. Из следствия к теореме Пирсона получаем уравнение этой прямой $$ 0.877856\, x-0.478924\,y-1.581390=0 \, . $$

Эта прямая совпадает с решением Пирсона, но вот значение для минимума у него приведено другое: $ 0.2484 $. Непосредственная проверка подтверждает значение $ \lambda_1 $.

Совершенно аналогично решается задача в пространстве.

Задача 3. Найти плоскость в $ \mathbb R^3 $, сумма квадратов расстояний до которой от точек $ \{P_j=(x_{j1},x_{j2},x_{j3})\}_{j=1}^n $ минимальна.

Из координат точек $ \{P_j\} $ составляются векторы $$ \widetilde X_1:=(x_{11}-\overline{x_1},x_{12}-\overline{x_1},\dots,x_{1n}-\overline{x_1}), $$ $$ \widetilde X_2:= (x_{21}-\overline{x_2},x_{22}-\overline{x_2},\dots,x_{2n}-\overline{x_n}),$$ $$ \widetilde X_3:=(x_{31}-\overline{x_3}, ,x_{32}-\overline{x_3},\dots,x_{3n}-\overline{x_3}), $$ при $$ \overline{x_k}:=\frac{1}{n} \sum_{j=1}^n x_{kj} , \quad k\in \{1,2,3\} \, . $$ Далее, матрица Грама этих векторов $$ G:=\left(\begin{array}{ccc} \widetilde X_1 \widetilde X_1^{\top} & \widetilde X_1 \widetilde X_2^{\top} & \widetilde X_1 \widetilde X_3^{\top} \\ \widetilde X_2 \widetilde X_1^{\top} & \widetilde X_2 \widetilde X_2^{\top} & \widetilde X_2 \widetilde X_3^{\top} \\ \widetilde X_3 \widetilde X_1^{\top} & \widetilde X_3 \widetilde X_2^{\top} & \widetilde X_3 \widetilde X_3^{\top} \end{array} \right) $$ может быть представлена в виде матричного произведения $$ G=\widetilde{\mathbf X} \cdot \widetilde{\mathbf X}^{\top} \quad \mbox{при} \ \widetilde{\mathbf X}:=\left(\begin{array}{c} \widetilde X_1 \\ \widetilde X_2 \\ \widetilde X_3 \end{array} \right)_{3\times n} \, . $$

Т

Теорема 3. Сумма квадратов расстояний от точек $ \{P_j\} $ до всевозможных плоскостей в $ \mathbb R^3 $ достигает своего минимального значения, которое равно собственному числу $\lambda_{min} $ матрицы $ G $, т.е. минимальному корню полинома

$$ f(\lambda):=\det (G-\lambda E) \, . $$ Если этот корень ненулевой и является простым корнем $ f(\lambda) $, то «минимизирующая» плоскость единственна, она проходит через точку $ (\overline{x_1}, \overline{x_2}, \overline{x_3}) $, а вектором нормали к ней является собственный вектор матрицы $ G $, принадлежащий $\lambda_{min} $.

Доказательство теоремы проводится по схеме теоремы $ 2 $. Аналогично обобщается задача в $ \mathbb R^m $ при $ m>3 $, т.е. для расстояний от заданных точек $\{P_j=(x_{j1},\dots,x_{jm})\}_{j=1}^n $ до гиперплоскостей $$ a_1x_1+\dots + a_mx_m = c \, . $$

Ковариационная матрица

Обсудим теперь прикладное значение результатов предыдущего пункта. В задачах математической статистики (машинного обучения, обработки данных…) матрица $$ \mathbf X_{m \times n}:=\left(\begin{array}{cccc} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & & & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{array} \right) $$ — матрица исходных данных (замеров, результатов экспериментов…)3), элементами ее строк являются какие-то числовые характеристики4) реального процесса, анализируемого объекта и т.п. Например, первая строка содержит рост в сантиметрах, вторая — вес в килограммах, третья — цвет в кодировке RGB, и т.д. Каждый столбец содержит характеристики конкретного объекта выборки. Например, первый столбец матрицы содержит измеренные данные конкретного человека: рост, вес, цвет волос и т.д. подпоручика Киже Муамара Ивановича.

Число $n$ этих объектов — количество экспериментов, замеров, наблюдений5), или — научным языком — количество проводившихся статистических испытаний случайной величины обычно много больше количества $ m $ измеряемых параметров (ширина матрицы больше ее высоты).

Задача: установить зависимость между этими параметрами.

Матрица $ \widetilde{\mathbf X} $ содержит те же числа, что и матрица исходных данных $ \mathbf X $ — но с одинаковым сдвигом в каждой строке. Сумма элементов каждой строки матрицы $ \widetilde{\mathbf X} $ равна $ 0 $ (такие матрицы данных называются центрированными6)).

Матрицу $$ \mathbf{\Sigma}_{m \times m}:=\frac{1}{n} G = \frac{1}{n} \widetilde{\mathbf X} \cdot \widetilde{\mathbf X}^{\top} \, , $$ составленную на основе строк матрицы данных $ \mathbf X $, в настоящем разделе будем называть ковариационной матрицей.

В математической статистике матрица $ \mathbf{\Sigma} $ называется матрицей ковариации эмпирической выборки7) или просто выборочной ковариационной матрицей. Она является оценкой ковариационной матрицы случайного вектора. Ее обозначение греческой буквой $ \mathbf{\Sigma} $ традиционно для литературы по математической статистике. И крайне неудобно для целей учебного процесса ввиду коллизии с обозначением суммирования. А в настоящем ресурсе — еще и с матрицей из (также традиционной) формы записи сингулярного разложения.

Собственные числа матрицы $ \mathbf{\Sigma} $ — это деленные на $ n $ собственные числа матрицы $ G $; они все неотрицательны. Соответствующие нормированные собственные векторы у этих матриц одинаковы. Если предположить собственные числа $ \mathbf{\Sigma} $ различными, то им принадлежащие нормированные собственные векторы ортогональны. Случай наличия кратных собственных чисел у матрицы $ \mathbf{\Sigma} $ — хоть и исключительный с точки зрения вероятности появления — требует более кропотливого анализа. Всегда найдутся линейно независимые собственные векторы, принадлежащие этому собственному числу, в количестве равном кратности этого собственного числа. Однако они не гарантировано попарно ортогональны. Алгоритмом Грама-Шмидта из этой неортогональной системы собственных векторов моно получить ортогональную. Объединяем в единую систему подобные подсистемы векторов, построенные для каждого собственного числа. В разделах настоящего ресурса, касающихся ковариационной матрицы, будем обозначать ее ненулевые собственные числа $ \sigma_1^2,\dots, \sigma_{\operatorname{rank} ( \mathbf{\Sigma})}^2 $, а принадлежащие им собственные векторы $ \mathfrak S_1,\dots, \mathfrak S_{\operatorname{rank} ( \mathbf{\Sigma})} $; систему этих векторов предполагаем ортонормированной.

Теорема о приводимости симметричной матрицы к диагональному виду посредством ортогонального преобразования, или, эквивалентно, теорема 6, для случая ковариационной матрицы переформулируется следующим образом.

Т

Теорема. Имеет место равенство:

$$ \mathbf{\Sigma} = \sigma_1^2 \mathfrak S_1 \mathfrak S_1^{\top}+ \dots + \sigma_{\operatorname{rank} ( \mathbf{\Sigma})}^2 \mathfrak S_{\operatorname{rank} ( \mathbf{\Sigma})} \mathfrak S_{\operatorname{rank} ( \mathbf{\Sigma})}^{\top} \, . $$

Векторы $ \mathfrak S_1,\dots, \mathfrak S_{\operatorname{rank} ( \mathbf{\Sigma})} $ называются главными компонентами8) матрицы данных $ \mathbf X $ (или столбцов этой матрицы, рассматриваемых как точки пространства $ \mathbb R^m$). Обычно эти главные компоненты нумеруют в порядке убывания соответствующих собственных чисел (например, первая компонента соответствует максимальному собственному числу). Так, для набора данных примера Пирсона $$ \mathfrak S_1 \approx \left[ 0.877856, - 0.478924\right]^{\top}, \mathfrak S_2 \approx \left[ 0.478924, 0.877856\right]^{\top} \, . $$

Источники

Pearson K. On lines and planes of closest fit to systems of points in space. Phil. Mag. 1901. V.2, pp. 559-572

1)
Пирсон Карл (Pearson Karl, 1857-1936), английский математик, основатель современной математической статистики. Биография ЗДЕСЬ.
2)
А это не всегда бывает даже для полиномиальных функций нескольких переменных: см. пример.
3)
(англ.) data matrix, design matrix
4)
(англ.) features в машинном обучении
5)
(англ.) observations
6)
(англ.) centered
7)
(англ.) empirical sample covariance matrix
8)
(англ.) principal components
interpolation/pearson.txt · Последние изменения: 2024/12/23 11:51 — au