Инструменты сайта


Расстояние Махаланобиса

Поставим теперь следующую задачу.

П

Пример. Предположим (гипотетически) что в опыты Гальтона вкралась ошибка: изначально выборка содержала не $ 898 $ замеров пар значений $ x,y $, а ровно $ 900 $. Но в двух получившихся замерах, именно $ C_{899}=(65,69) $ и $ C_{900}= (70,73) $, Гальтон засомневался и поэтому выбросил их из выборки. Какая из этих точек более вероятна на ошибочность?

Решение. Вычислим расстояние от подозрительных точек до центроида $ C $: $ |C_{899}C|\approx 4.779 $, $ |C_{900}C|\approx 6.287 $. Получается, что точка $ C_{899} $ ближе к среднему значению, чем $ C_{900} $. Но если вставить эти точки в диаграмму рассеяния, то увидим, что в окрестности $ C_{899} $ не наблюдается такого количества других, истинных, экспериментальных точек, сколько их наблюдается в окрестности $ C_{900} $.

Еще более «одинокой» выглядит точка $ (64,70) $: она совсем уж явно выпадает из облака. Как вычислять удаленность проверяемых точек от центра? Следует сменить метрику на плоскости. Расстояние от точки $ (x_0,y_0) $ до $ C=(\overline x, \overline y ) $ вычислять с учетом вытянутости диаграммы рассеяния вдоль главной оси эллипса рассеяния. Это наводит на мысль использовать в качестве расстояния функцию, аналитически представляющую уравнение этого эллипса $$ d_M=\sqrt{[x_0 - \overline x,y_0 - \overline y]S^{-1} \left[\begin{array}{c} x_0 - \overline x \\ y_0 - \overline y \end{array} \right]} \, . $$ Иными словами, семейство линий уровня квадратичной функции $$ \left\{ [x - \overline x,y - \overline y]S^{-1} \left[\begin{array}{c} x - \overline x \\ y - \overline y \end{array} \right]=d^2 \right\}_{d\in \mathbb R \setminus \{0\}} $$ задает систему концентрических эллипсов.

Точки, находящиеся на каждом из этих эллипсов будем считать равноудаленными от $ C $, а за величину расстояния принимать $ d $. Значение $ d_M=2 $ соответствует эллипсу рассеяния.

Расстоянием Махаланобиса1) точки $ X=(x_1,\dots,x_n)^{\top} $ до множества точек $ \{ C_j\}_{j=1}^m \subset \mathbb R^n $ с невырожденной ковариационной матрицей $ S $ и средним значением $ C $ называется число $$ d_M(X)=\sqrt{(X-C)^{\top} S^{-1} (X-C)} \, . $$ По аналогии со случаем $ \mathbb R^2 $, можно сказать, что в метрике Махаланобиса точки, лежащие на эллипсоиде $ d_M^2(X) =d^2 $, считаются равноудаленными от множества $ \{ C_j\}_{j=1}^m $ (а, фактически, от его центра $ C $).

Расстоянием Махаланобиса между точками $ X=(x_1,\dots,x_n)^{\top} $ и $ Y=(y_1,\dots,y_n)^{\top} $, принадлежащими одному распределению с невырожденной ковариационной матрицей $ S $, называется $$ d(X,Y)=\sqrt{(X-Y)^{\top} S^{-1} (X-Y)} \, . $$

?

Доказать, что расстояние Махаланобиса в $ \mathbb R^n $, в случае когда $ C=\mathbb O $, можно определить посредством введения скалярного произведения формулой $$ \langle X,Y \rangle= X^{\top} S^{-1} Y \, . $$

Применения

Используется в кластерном анализе, в задачах классификации. Чтобы определить принадлежность тестовой точки $ X $ какому-то из $ N $ классов, сначала вычисляются ковариационные матрицы каждого класса на основании выборок известных своими принадлежностями к каждому конкретному классу. Далее вычисляется расстояние Махаланобиса до каждого класса. Минимальное из этих расстояний указывает на наиболее вероятный класс, к которому следует отнести $ X $.

Еще одно применение расстояния Махаланобиса отражено в примере предыдущего пункта: обнаружение выбросов2) выборки экспериментальных данных, т.е. точек резко отличающихся от остальных точек выборки. Существенно для задач регрессионного анализа.

1)
Махаланобис Прасанта Чандра (Mahalanobis Prasanta Chandra, 1893-1972) — индийский математик и статистик.
2)
outlier (англ.)
algebra2/svd/mahal.txt · Последние изменения: 2020/04/28 23:44 — au