Почти clustering

Sova74

Есть некий набор элементов для которых известна матрица расстояний друг для друга (каждого с каждым).
Классический кластеринг типа k-means может мне помочь разложить эти элементы на группы с использованием
расстояний (минимизировать дисперсию или еще как но у меня задача поставлена немного по другому:
у меня известно что каждый элемент это как бы смесь 2х групп в некой пропорции, и надо найти эту пропорцию а не просто разделить на группы.
Кто нибудь сталкивался с таким? в какую сторону смотреть?

griz_a

Не очень понятно в чем разница "есть объединение двух групп" или "есть смесь групп в какой-то пропорции", если, конечно, речь не про последовательный анализ

Sova74

Как, говорится, правильно сформулированная задача это половина ответа, так что я видимо пока на 25% :)
попробую еще раз поподробнее и "сначала", Исходно есть N (j=1..N) временных рядов x_j, каждый из которых
на самом деле является некой комбинацией двух других рядов x_j = a_j*y+b_j*z.
Известны коэффициенты корреляции и соответствующие вероятности P_i,j для каждой пары x_i,j (i=1..N, j=1..N).
Т.е. если два ряда x_1 и x_2 скорректированы, то P_i,j -> 1, и это говорит о том что оба этих ряда включают в основном
один из производящих рядов, т.е. один из коэффициентов sum(a_i,i=1,2) или sum(b_i, i=1,2) близок к 0 для этой пары.
Наоборот, если x_1 и x_2 произведены разными рядами, то для одного из них a_1~0, b1>0, а для другого a2>0, b2~0,
или как то так. Проблема в том, что вот прямо a или b=0 никогда не бывает, т.е. четкого разбиения на группы тут нет,
и нельзя разбить x_j на группы где a(b)_j~0 для всех j, как это делается при кластеринге. Всегда есть какая то смесь
и нужно найти именно пропорцию в которой для каждого x_j смешаны y и z (т.е. a,b_j). Я с подобной задачей раньше не сталкивался,
но вижу что она похожа на кластеризацию, поэтому ее и упомянул. С другой стороны, наверняка это что то относительно стандартное
(т.е. не разбить N наблюдений на группы, а сказать сколько в свойствах каждого из наблюдений от каждой из групп
вот я и спрашиваю, мб. кто встречался?

griz_a

Про то, что дано хотелось бы поподробнее. Корреляции у нас только внутри каждого ряда или каждого с каждым из наших nN элементов? Кто такие P_{i,j}? "Соответствующие вероятности" - чему соответствующие?

Sova74

каждого с каждым, ну а вероятности это просто вероятности корреляции на основе коэффициента. Просто они лучше работают в качестве метрики чем R.

griz_a

вероятности корреляции на основе коэффициента
:ooo: Что сие значит?

Sova74

Толку с вас, фрау соболева. Это вообще к делу не на прямую относится, да и считать можно по разному (см википедиею хотя б я поэтому не акцентирую внимание.

griz_a

Толку с вас, фрау соболева. Это вообще к делу не на прямую относится, да и считать можно по разному (см википедиею хотя б я поэтому не акцентирую внимание.
Пока задача сформулирована плохо и на корейском, толку с меня мало.
Что такое "вероятность корреляции" не знаю ни я, ни гугл, ни википедии, а телепат из меня плохонький.
Если это к делу не относится, а есть только коэффициенты корреляции, то непонятно в чем проблема-то? Вероятности в этой задаче нет и в помине, просто дана некоторая система уравнений с 4N переменными и (nNnN-1) уравнениями.

gala05

факторный анализ не сгодится?

Sova74

Да вот тоже думаю на эту тему, но пока с реальными данными не получается.

Sova74

Попробую еще раз переформулировать. Итак,
Есть некий набор случайных векторов Y_i, для которых задана попарная корреляционная матрица C_i,j (ковариацию тоже можно посчитать, но в данном случае
лучше именно корреляционная и известно что на самом деле каждый вектор может быть представлен как Y_i=A_i*X + B_i*Y (+С_i*Z, но это точно не
известно где A_i>=0, B_i>=0 просто константы (разные для разных Y_i a X, Y некоторые случайные вектора общие для всех Y_i. Причем известно что
коеффициент корреляции между 0<=r(X,Y)<1. Распределение элементов в X,Y должно быть близко к нормальному либо лог-нормальному. Собственно, найти надо A_i>=0 и B_i>=0, причем A_i~B_i (по крайней мере для некоторых i). Факторный анализ все в 1 фактор запихивает. PCA тоже. Возможно дело в том, что и там и там используется ковариационная матрица, а она от корреляционной отличается...

griz_a

Ты понимаешь, да, что если увеличу каждую пару A_i,B_i в одно и то же число раз, то корреляции останутся теми же? Поэтому максимум, что можно найти - соотношение между A_i,B_i в паре. При этом все A_i можно увеличить в какое-то количество раз, а Х уменьшить во столько же - тоже ничего не изменится, поэтому на самом деле можно лишь найти
(A_i/B_i)/(A_j/B_j) при всех i,j.
Оставить комментарий
Имя или ник:
Комментарий: