Расстояние Махаланобиса для такого случая (внутри)

biblioteka

Есть два двумерных вектора: X=[x1,x1]; Y=[y1,y2]
Известны Ковариационные матрицы для каждого из векторов, т.е.:
Sx=[Sx1x1,Sx1x2;Sx2x1,Sx2x2];
Sy=[Sy1y1,Sy1y2;Sy2y1,Sy2y2]; (матлабовское представление матрицы)
Как посчитать Расстояние Махаланобиса для такого случая?
http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82...
Расстояние Махаланобиса также можно определить как меру несходства между двумя случайными векторами \vec{x} и \vec{y} из одного распределения вероятностей с матрицей ковариации S :


В моём случае ошибки положения распределёны по одному закону (Гауссово распределение но с разными эллипсоидами ошибок.
Тут может быть три случая:
1) Самый простой. Очень часто встречающийся в моей работе.
Ошибки симметричны по обоим координатам, т.е. Sx1x1=Sx2x2=Sx и Sy1y1=Sy2y2=Sy, а Sx1x2=Sx2x1=Sy1y2=Sy2y1=0
2)Значения на главной диагонали не равны, но Sx1x2=Sx2x1=Sy1y2=Sy2y1=0
3) Самый общий вариант, когда все элементы не равны нулю.
Буду благодарен если кто-то подскажет как решить эту проблему или укажет на соответствующие статьи.

griz_a

А какая цель-то? Для чего его считать?

biblioteka

А какая цель-то?
Цель заменить простое евклидово расстояние между точками в метрике (расстояние) Хаусдорфа:
http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8...
http://en.wikipedia.org/wiki/Hausdorff_distance
На некоторое взбешенное.
Есть два облака точек, нужно ввести меру близости между ними. Ей является метрика Хаусдорфа.
В случае, если все положения точек в каждом облаке известны точно, то расстояние просто евклидово.
В случае если одно облако сравнения известно точно, а второе (координаты точек) с некоторыми ошибками, то в этом случае применяется или нормализованное расстояние Евклида или в общем случае Расстояние Махаланобиса :
http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82...
Но в моём случае и сравниваемое облако и референсное облако известны не точно. Т.е. координаты одних точек могут иметь ошибки во много раз больше чем у других. Естественно, если не учитывать этот факт, то мера близости может сильно исказится, из-за малозначительных точек.
Выбросить эти малозначительные точки я не могу, т.к. тогда отождествление точек может вообще не произойти (одно облако есть подмножество другого).

griz_a

Чего-то я не солидарен с тем, что расстояние Махаланобиса - это расстояние между фиксированной точкой и случайным облаком. Или я не понимаю, что имеется в виду.
Есть у меня точка (100, 100) и нормально распределенное облако около точки (0,0) с матрицей ковариаций (4, 0) - (0, 100). Точки, по сути в квадрате (-12, 12)*(-30, 30 а расстояние Махаланобиса равно [math]$ \sqrt{(50)^2+(10)^2} = 10\sqrt{26}$[/math]. То есть около 50, хотя до того момента, когда в облаке появится точка на евклидовом расстоянии 50, мне придется генерировать безумно большую выборку.
В моем представлении расстояние Махаланобиса - это показатель того, насколько точка релевантна заданному распределению.
Что мы хотим получить, измеряя релевантность одного распределения относительно другого - я не очень понимаю.

biblioteka

что расстояние Махаланобиса - это расстояние между фиксированной точкой и случайным облаком
Ты не так понял. Расстояние Махаланобиса или в частном случае Евклидово - это мера расстояния между двумя точками в разных облаках(или в одном и том же облаке). И уже на основе оного строится мера расстояния между облаками точек(Хаусдорфа).

griz_a

Еще раз - я не воспринимаю его как меру измерения расстояния между точками разных облаков. Оно именно что отражает насколько данная точка вероятна для появления в данном распределении.
Какой смысл в разговоре о том, насколько данное распределение вероятно для появления в другом распределении - я пока не понимаю. Вот и хочу узнать - зачем вам это.
Кстати, в этом вопросе нет никакой симметрии, если я возьму гауссовские (0,0) с дисперсией (1000000, 1000000) и (100,100) с дисперсией 1, то от точек первой выборки до второй расстояние Махаланобиса будет большим, а наоборот - нормальным.

biblioteka

Еще раз - я не воспринимаю его как меру измерения расстояния между точками разных облаков. Оно именно что отражает насколько данная точка вероятна для появления в данном распределении.
Спасибо, что заронил тень сомнения. Почитал несколько статей и понял, что моя идея заменить евклидово расстояние тут было не верно.
 
Расстояния Махаланобиса
Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра (среднюю точку). Эта "средняя точка" в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.
  

Тут тоже.
http://dic.academic.ru/dic.nsf/enc_mathematics/3063/%D0%9C%D...
Вернулся к Евклиду с весами введёнными из следующих рассуждений:
Дисперсия разности двух независимых случайных величин равна сумме их дисперсий:
D(X – Y) = D(X) + D(Y)
Дисперсия суммы двух независимых случайных величин равна сумме их дисперсий:
D(X + Y) = D(X) + D(Y)
Это значительно упростило задачу. Даже для двух эллипсоидов ошибок.
Спасибо!
Оставить комментарий
Имя или ник:
Комментарий: