===Расстояние Махаланобиса== Поставим теперь следующую задачу. !!П!! **Пример.** Предположим (гипотетически) что в ((:interpolation#аппроксимация_в_случае_недостоверности_данных опыты Гальтона)) вкралась ошибка: изначально выборка содержала не $ 898 $ замеров пар значений $ x,y $, а ровно $ 900 $. Но в двух получившихся замерах, именно $ C_{899}=(65,69) $ и $ C_{900}= (70,73) $, Гальтон засомневался и поэтому выбросил их из выборки. Какая из этих точек более вероятна на ошибочность? **Решение.** Вычислим расстояние от подозрительных точек до центроида $ C $: $ |C_{899}C|\approx 4.779 $, $ |C_{900}C|\approx 6.287 $. Получается, что точка $ C_{899} $ ближе к среднему значению, чем $ C_{900} $. Но если вставить эти точки в ((:algebra2:svd:faces#ковариационная_матрица диаграмму рассеяния)), то увидим, что в окрестности $ C_{899} $ не наблюдается такого количества других, истинных, экспериментальных точек, сколько их наблюдается в окрестности $ C_{900} $. {{ algebra2:svd:galton4.png |}} Еще более "одинокой" выглядит точка $ (64,70) $: она совсем уж явно выпадает из облака. Как вычислять удаленность проверяемых точек от центра? Следует сменить метрику на плоскости. Расстояние от точки $ (x_0,y_0) $ до $ C=(\overline x, \overline y ) $ вычислять с учетом вытянутости диаграммы рассеяния вдоль главной оси ((:algebra2:svd:faces#ковариационная_матрица эллипса рассеяния)). Это наводит на мысль использовать в качестве расстояния функцию, аналитически представляющую уравнение этого эллипса $$ d_M=\sqrt{[x_0 - \overline x,y_0 - \overline y]S^{-1} \left[\begin{array}{c} x_0 - \overline x \\ y_0 - \overline y \end{array} \right]} \, . $$ Иными словами, семейство линий уровня квадратичной функции $$ \left\{ [x - \overline x,y - \overline y]S^{-1} \left[\begin{array}{c} x - \overline x \\ y - \overline y \end{array} \right]=d^2 \right\}_{d\in \mathbb R \setminus \{0\}} $$ задает систему концентрических эллипсов. {{ algebra2:svd:galton5.png |}} Точки, находящиеся на каждом из этих эллипсов будем считать равноудаленными от $ C $, а за величину расстояния принимать $ d $. Значение $ d_M=2 $ соответствует эллипсу рассеяния. **Расстоянием Махаланобиса**[[Махаланобис Прасанта Чандра (Mahalanobis Prasanta Chandra, 1893-1972) --- индийский математик и статистик.]] точки $ X=(x_1,\dots,x_n)^{\top} $ до множества точек $ \{ C_j\}_{j=1}^m \subset \mathbb R^n $ с невырожденной ((:algebra2:svd:faces#ковариационная_матрица ковариационной матрицей)) $ S $ и средним значением $ C $ называется число $$ d_M(X)=\sqrt{(X-C)^{\top} S^{-1} (X-C)} \, . $$ По аналогии со случаем $ \mathbb R^2 $, можно сказать, что в метрике Махаланобиса точки, лежащие на эллипсоиде $ d_M^2(X) =d^2 $, считаются равноудаленными от множества $ \{ C_j\}_{j=1}^m $ (а, фактически, от его центра $ C $). Расстоянием Махаланобиса между точками $ X=(x_1,\dots,x_n)^{\top} $ и $ Y=(y_1,\dots,y_n)^{\top} $, принадлежащими одному распределению с невырожденной ковариационной матрицей $ S $, называется $$ d(X,Y)=\sqrt{(X-Y)^{\top} S^{-1} (X-Y)} \, . $$ !!?!! Доказать, что расстояние Махаланобиса в $ \mathbb R^n $, в случае когда $ C=\mathbb O $, можно определить посредством введения ((:euclid_space#определения скалярного произведения)) формулой $$ \langle X,Y \rangle= X^{\top} S^{-1} Y \, . $$ ===Применения== Используется в кластерном анализе, в задачах классификации. Чтобы определить принадлежность тестовой точки $ X $ какому-то из $ N $ классов, сначала вычисляются ковариационные матрицы каждого класса на основании выборок известных своими принадлежностями к каждому конкретному классу. Далее вычисляется расстояние Махаланобиса до каждого класса. Минимальное из этих расстояний указывает на наиболее вероятный класс, к которому следует отнести $ X $. Еще одно применение расстояния Махаланобиса отражено в примере предыдущего пункта: обнаружение выбросов[[outlier (//англ.//)]] выборки экспериментальных данных, т.е. точек резко отличающихся от остальных точек выборки. Существенно для задач регрессионного анализа.