Совпадают с введенными ЗДЕСЬ. В частности,
В каждой семье, имеющей взрослых детей, замерим рост родителей и рост взрослых детей. Именно это проделал Фрэнсис Гальтон в последней четверти XIX века. Результаты его измерений по $ 205 $ семьям и $ 898 $ детям можно найти ☞ ЗДЕСЬ.
$$ \begin{array}{c|c|c|c|c|c|c|c|c|c|c|c|c|c} \mbox{номер семьи} & 1 & 1 & 1 & 1 & \dots & 205 & 205 & 205 & 205 & 205 & 205 & 205 & 205 \\ \hline \mbox{рост отца} & 78.5 & 78.5 & 78.5 & 78.5 & \dots & 68.5 & 68.5 & 68.5 & 68.5 & 68.5 & 68.5 & 68.5 & 68.5 \\ \hline \mbox{рост матери} & 67 & 67 & 67 & 67 & \dots & 65 & 65 & 65 & 65 & 65 & 65 & 65 & 65 \\ \hline \mbox{рост детей} & 73.2_{м} & 69.2_{ж} & 69.0_{ж} & 69.0_{ж} & \dots & 72.0_{м} & 70.5_{м} & 68.7_{м} & 68.5_{м} & 67.7_{м} & 64.0_{ж} & 63.5_{ж} & 63.0_{ж} \end{array} $$
Здесь размеры указаны в дюймах1), а индексы у замеров отражают пол ребенка. Целью исследования было установление зависимости между усредненным ростом обоих родителей и ростом их детей.
Усредненный рост родителей в каждой семье вычислялся по формуле $$ \frac{1}{2}(\mbox{рост отца} + 1.08 \times \mbox{рост матери}) \, . $$
Первый вариант постановки задачи. Будем решать ее в постановке усредненного роста не только родителей, но и усредненного роста детей. Последний будем вычислять для каждой отдельной семьи по формуле $$ \frac{1}{\mbox{число детей в семье}}(\mbox{сумма ростов парней} + 1.08 \times \mbox{сумма ростов девушек}) \, . $$ Исходный набор данных преобразуется в следующий $$ \begin{array}{c|c|c|c|c|c|c|c|c|c|c|c|c|c} \mbox{номер семьи} & 1 & 1 & 1 & 1 & \dots & 205 & 205 & 205 & 205 & 205 & 205 & 205 & 205 \\ \hline \mbox{усредненный рост} & \\ \mbox{(родители)} & 75.43 & 75.43 & 75.43 & 75.43 & \dots & 69.35 & 69.35 & 69.35 & 69.35 & 69.35 & 69.35 & 69.35 & 69.35 \\ \hline \mbox{усредненный рост} & \\ \mbox{(дети)} & 74.24 & 74.24 & 74.24 & 74.24 & \dots & 69.14 & 69.14 & 69.14 & 69.14 & 69.14 & 69.14 & 69.14 & 69.14 \end{array} $$ Если изобразить полученные данные в виде точек $ \{(x_{1j},x_{2j})\}_{j=1}^{n}, n=898 $ плоскости, то получим следующую картину:
Визуально наблюдаем $205$ точек, причем каждая из них имеет свой «вес». Так точка $ (70.06, 68.0) $ учитывается трижды, поскольку в семье за номером $ 178 $ имеется трое детей. Красная точка — центроид
$$
\overline{x}_1=\frac{1}{n}\left( x_{11}+\dots+x_{1n} \right) \approx 69.22 , \
\overline{x}_2=\frac{1}{n}\left( x_{21}+\dots+x_{2n} \right) \approx 69.16 \, .
$$
Наблюдаем, что точки выборки концентрируются вокруг центроида, а, в целом, облако точек имеет эллиптическую структуру.
Диаграмма плотностей распределения экспериментальных данных в окрестности центроида
отражает бóльшую информацию: области одинаковой плотности располагаются также внутри эллиптических колец с центром в центроиде.
В терминах математической статистики, анализируемая выборка $$ X_1:=(x_{11},x_{12},\dots, x_{1n}), \ X_2:=(x_{21},x_{22},\dots, x_{2n}) $$ может характеризовать двумерную случайную величину с эллиптическим распределением2). Выборки для таких распределений характеризуются свойством: области примерно равной плотности распределения точек $ \{(x_{1j},x_{2j})\}_{j=1}^{n} $ располагаются между гомотетичными эллипсами с центром гомотетии — в центроиде этой выборки. При этом необязательным является требование уменьшения плотности распределения точек выборки по мере удаления от центроида. Однако самая распространенная гипотеза, которая прежде других проверяется при исследовании конкретной выборки, предполагает именно такой сценарий. Это — гипотеза о нормальности распределения3).
Эта гипотеза предполагает, что плотность распределения точек $ \{(x_{1j},x_{2j})\}_{j=1}^{n} $ может аппроксимирована непрерывной функцией
$$
z=f(x_1,x_2) \quad \mbox{при} \ f(x_1,x_2):= \frac{n}{2\, \pi \sqrt{ \det (\mathbf{\Sigma})}} \operatorname{exp} \left(-\frac{1}{2} [x_1-\overline{x}_1,x_2-\overline{x}_2 ]\mathbf{\Sigma}^{-1}
\left[\begin{array}{c}
x_1-\overline{x}_1\\
x_2-\overline{x}_2 \end{array} \right] \right) \, .
$$
при матрице
$$
\mathbf{\Sigma}:=
\frac{1}{n} \widetilde{\mathbf X} \cdot \widetilde{\mathbf X}^{\top} \quad \mbox{где} \ \widetilde{\mathbf X}_{2\times n}:=\left(\begin{array}{c} \widetilde X_1 \\ \widetilde X_2 \end{array} \right)_{2\times n} \, .
$$
$$
\widetilde{X}_1:= (x_{11}-\overline{x}_1, x_{12}-\overline{x}_1,\dots, x_{1n}-\overline{x}_1), \
\widetilde{X}_2:= (x_{21}-\overline{x}_2, x_{22}-\overline{x}_2,\dots, x_{2n}-\overline{x}_2) \, .
$$
Аргументом в экспоненте выступает квадратичный полином по переменным $ x_1,x_2 $. Линии уровня функции $ f(x_1,x_2) $, т.е. кривые
$$ f(x_1,x_2)=const $$
совпадают с линиями уровня этого квадратичного полинома. При условии $ \det (\mathbf{\Sigma}) \ne 0 $, эти линии уровня являются именно эллипсами с центром в $ (\overline{x}_1,\overline{x}_2) $.
Без учета сдвига в эту точку, их размеры и расположение на плоскости полностью определяются матрицей $\mathbf{\Sigma}$. Точнее, матрицей $\mathbf{\Sigma}^{-1} $. Вспомним экстремальное свойство собственных чисел симметричной матрицы. Главные оси любого эллипса $ (x_1,x_2) \mathbf{\Sigma}^{-1} (x_1,x_2)^{\top} = C $ совпадают с собственными векторами матрицы $ \mathbf{\Sigma}^{-1} $, а длина большой главной полуоси относится к длине малой главной полуоси как корень квадратный из отношения минимального собственного числа к максимальному. Вспоминая, что собственные числа матрицы $\mathbf{\Sigma}^{-1} $ равны $ 1/\lambda_1, 1/\lambda_2 $, где $ \lambda_1 $ и $ \lambda_2 $ — собственные числа матрицы $\mathbf{\Sigma} $, получаем утверждение: большая (малая) ось любого эллипса совпадает с собственным вектором матрицы $ \mathbf{\Sigma} $, принадлежащим максимальному (соответственно, минимальному) собственному числу этой матрицы.
Матрица $ \mathbf{\Sigma} $ и ее собственные числа (векторы) уже возникали в другой задаче, формально не связанной со статистикой. Это — задача Пирсона. Она называется ковариационной матрицей выборки $ \{X_1,X_2\} $.
Эллипсы $$ (x_1,x_2) \mathbf{\Sigma}^{-1} (x_1,x_2)^{\top} = C \quad \mbox{при положительных значениях константы} \ C $$ в настоящем ресурсе будут называться доверительными эллипсами.
Что будет аналогом этого понятия для двумерной выборки, которую мы пытаемся оценить на отношение к двумерному нормальному распределению? Можно ли сказать, что доверительный эллипс — это область4) заданной площади, содержащая максимально возможное количество точек выборки? — Вообще говоря, нет (почему?). Но, похоже, справедливо такое утверждение: среди всех эллипсов заданной площади доверительный эллипс, вероятно, будет содержать максимально возможное количество точек выборки.
Для нашего примера ковариационная матрица имеет вид $$ \mathbf{\Sigma}=\left[ \begin {array}{cc} 3.300560736& 2.341201305 \\ 2.341201305& 4.059965834\end {array} \right] \, . $$ Имеем: $$ f(\overline{x}_1,\overline{x}_2) \approx 50.78 \, . $$ Внутри содержащего $ (\overline{x}_1,\overline{x}_2) $ квадрата $$ 68<x_1<70, \ 68<x_2<70 $$ содержатся $ 222 $ точки выборки, т.е. средняя плотность $ 55.50 $ точек на квадратный дюйм. Сравниваем еще несколько приближений $$ f(71,71) \approx 29.37, \ $$ при средней плотности $ 39.25 $ в квадрате $ 69<x_1<72, \ 69<x_2<71 $. $$f(67,69) \approx 15.87 \quad ; \ \mbox{плотность} \ 17.25 \, . $$
Теперь проверим насколько хорошо доверительные эллипсы аппроксимируют области одинаковой плотности нашего примера.
Собственные числа ковариационной матрицы $ \mathbf{\Sigma} $:
$$ \lambda_1 \approx 6.052055 ,\ \lambda_2 \approx 1.308471 $$
и соответствующие им нормированные собственные векторы
$$ \ [ 0.648038, 0.761607 ]^{\top}, \ [0.761607, -0.648038]^{\top} \, . $$
Решением задачи Пирсона является прямая
$$x_2= 1.175\, x_1-12.189 \, . $$
Она же является и большой осью доверительных эллипсов. Их уравнение:
$$
0.5126\, x_1^2-0.591\, x_1x_2+0.417\, x_2^2-30.083\,x_1-16.724\, x_2+1619.544 = C
$$
На рисунке изображены эллипсы, соответствующие следующим значениям константы $ C $:
$$
C_1 =0.584, \ C_2 =2.336,\ C_3=5.257 \, .
$$
Внутри первого эллипса находится $299$ точек ($33$ % точек выборки) , внутри второго — $ 654 $ ($73$ %), внутри третьего —
$814$ ($90$ %). Соответствует оценкам для нормального распределения [2].
Второй вариант постановки задачи (оригинальный Гальтона).
Рост детей не усредняется. Данные для величины $X_1 $ остаются прежними, а для величины $ X_2 $ берутся из первой таблицы.
Визуально облако точек
тоже аппроксимируется эллипсом. Посмотрим, однако, на картину плотности распределения точек:
Явно выделяются два отдельных центра концентрации. Откуда они взялись, почему их не было в предыдущем варианте постановки задачи? — Объяснение заключается в том обстоятельстве, что в первом варианте мы усреднили детей, т.е. в выборке $ X_2 $ указаны средние росты детей в семье. Во втором варианте эти росты указаны честно. Но средний рост взрослых мужчин обычно выше среднего роста женщин! И на картине плотностей эта разница стала наблюдаемой.
Так что рассматриваемую выборку уже нельзя однозначно отнести к нормальному распределению… То есть, формально можно, но лучше попытаться оценить его как бимодальное распределение.
В приведенном выше примере Гальтона собственные числа ковариационной матрицы $ \sigma_1 \approx 6.052055, \ \sigma_2 \approx 1.308471 $ не слишком сильно различались по величине, и коэффициент сжатия доверительного эллипса $ \sqrt{\sigma_2/\sigma_1} \approx 0.46 $ не очень мал. А что произойдет если этот коэффициент станет близким нулю? Эллипс становится все более сплюснутым к большой оси, т.е. фактически, к отрезку прямой. Тогда можно предположить, что реальная закономерность, описываемая статистическими данными Гальтона, на самом деле, характеризуется некоторым линейным законом. Наличие отклонений точек от некоторой гипотетической прямой является следствием зашумленности данных ошибками измерений.
Для общего случая $ m $-мерного случайного процесса, описываемого выборкой с ковариационной матрицей $ \mathbf{\Sigma}_{m\times m} $, предположим, что ее спектр, упорядоченный по невозрастанию $$ \sigma_1 \ge \sigma_2 \ge \dots \ , $$ можно разбить на две подпоследовательности: числа $ \sigma_1,\dots,\sigma_k $ существенно больше чисел $ \sigma_{k+1},\dots \sigma_{\operatorname{rank} ( \mathbf{\Sigma})} $. Тогда в полной сумме представления матрицы $$ \mathbf{\Sigma} = \sigma_1 \mathfrak S_1 \mathfrak S_1^{\top}+ \dots + \sigma_{\operatorname{rank} ( \mathbf{\Sigma})} \mathfrak S_{\operatorname{rank} ( \mathbf{\Sigma})} \mathfrak S_{\operatorname{rank} ( \mathbf{\Sigma})}^{\top} \, . $$ посредством ее главных компонент, можно попытаться пренебречь малыми слагаемыми, т.е. рассмотреть матрицу $$ \mathbf{\Sigma}_k := \sigma_1 \mathfrak S_1 \mathfrak S_{1}^{\top} + \dots + \sigma_k \mathfrak S_k \mathfrak S_{k}^{\top} $$ ранга $ k $ как приближение матрицы $ \mathbf{\Sigma} $.
Что происходит при таком приближении матрицы с $ m $-мерным доверительным эллипсоидом? Он проецируется на гиперплоскость, проходящую через центроид, с направляющими векторами, совпадающими с первыми $ k $ главными компонентами. Почему именно на эту гиперплоскость? Во-первых, потому что из всех гиперплоскостей такой размерности общая ошибка приближения (сумма квадратов отклонений точек от гиперплоскости) будет минимальной. Во-вторых, размеры проекции будут максимально возможными. Образно говоря, тень, отбрасываемая эллипсоидом на такую гиперплоскость наиболее адекватно отражает истинные размеры этого эллипсоида!
В этом и заключается первая принципиальная сущность метода главных компонент: отбросить малое, оставив существенное. Особенно хорошо, если этого существенного не так много, т.е. $ k \ll m $. Вторая же особенность метода состоит в том, что, как правило, удается избежать вычисления всего спектра матрицы $ \mathbf{\Sigma} $, т.е. обойти весьма дорогостоящую процедуру вычисления ее характеристического полинома. Это можно сделать, хотя бы, в рамках степенного метода решения частичной проблемы собственных чисел: см. ☞ ЗДЕСЬ.
[1]. Лагутин М.Б. Наглядная математическая статистика. М.Бином. 2007, c. 322
[2]. Bin Wang, Wenzhong Shi , Zelang Miao Confidence analysis of standard deviational ellipse and its extension into higher dimensional Euclidean space. Plos One. 2015 ЗДЕСЬ
[3]. Pearson K. On lines and planes of closest fit to systems of points in space. Phil. Mag. 1901. V.2, pp. 559-572