Мера оценки "двугорбости" распределения

sunny82

Есть такое явление - бимодальная экспрессия генов (смотри картинку ниже).

Редко они такие красивые - обычно что-то вот такое

Или вот такое
Распределение получается так - берётся сотня-другая пациентов\людей без этой патологии и тем или иным способом измерется экспрессия генов. Для каждого гена строится распределение величины сигнала внутри выборки - по горизонтали сигнал, по вертикали - количество пациентов с таким значение сигнала. БОльшая часть генов демонстрирует всё-таки одногорбое распределение (далеко не всегда нормальное, к слову, но одногорбое). Однако экспрессия некоторых генов описывается двугорбой кривой, т.е. выборка явно неоднородна по их экспресии. Далеко не всегда мода нормы лежит в провале между 2-мя горбами патологии - вполне может быть так, что один горб соответствует моде нормы (т.е. большАя часть пациентов имеет моду значения экспресии этого гена, соответствующую условно выборке людей без патологии а второй горб имеет пик\моду с другим значение экспресии.
Сейчас используется следующий принцип выявления бимодальных генов - считают, что это наложение 2-х нормальных распределений. Хотя это не пытались ни доказать, ни показать хотя бы, какая часть бимодальных генов вообще в принципе может удовлетворять такой модели. Мне эта модлеь кажется сомнительной хотя бы из тех соображений, что даже на явных одногорбых распределниях подтвердить их нормальность мало для экспресии каких генов удаётся. Т.е. вообще смонительно, что это распределение нормально в принципе.
Поэтому мне нужны советы - как можно не привязываясь к подобной гипотезе - бимодальность как наложение 2-х нормальных распределений, тем не менее отличать двугорбые распределения от одногорбых - т.е. критерии двугорбости\ одногорбости, подходы к этому и т.д.

Ramm13

Можно поаппроксимировать какими-нибудь сплайнами и посмотреть каким сплайном лучше аппроксимируется - одногорбым / двугорбым.
Можно воспринимать как задачу кластеризации циферок.
Скажем запустить 2-means clustering, и 1-means clustering (вырожденный центр масс и посмотреть в каком случае будет кластер с центром ближе к абсолютному максимуму. Если в случае 1-means - значит 1 горб, 2-means - 2 горба.

griz_a

Первый вопрос:
Как проверить на то, что наше распределение - распределение Тьюки (смесь двух нормальных). Если не выходить за рамки стандартной статистики (а вполне реально, что есть какие-то более тонкие специальные методы то мы исходим из гипотезы о том, что функция распределения имеет вид
[math]$F(x;a_1,a_2,\sigma_1,\sigma_2,p) = p\Phi\left(\frac{x-a_1}{\sigma_1}\right)+(1-p)\Phi\left(\frac{x-a_2}{\sigma_2}\right) $[/math]
Тогда разбиваем нашу ось на отрезки [math]$[x_i, x_{i+1}],$[/math] [math]$x_0=\infty, x_{k+1}=\infty$[/math] и определяем ОМП для наших пяти параметров.
Для этого считаем числа попаданий в наши отрезки [math]$\nu_i$[/math], численно ищем максимум выражения
[math]$\sum\limits_{i=0}^{k} \nu_i \ln\left(F(x_{i+1},;a_1,a_2,\sigma_1,\sigma_2,p)-F(x_i;a_1,a_2,\sigma_1,\sigma_2,p)\right)$[/math]
по [math]$p\in [0,1], \sigma_1>0, \sigma_2>0, a_1, a_2.$[/math]
Полученные значения наших пяти параметров подставляем в
[math]$p_i=F(x_{i+1},;a_1,a_2,\sigma_1,\sigma_2,p)-F(x_i;a_1,a_2,\sigma_1,\sigma_2,p)$[/math]
и считаем статистику
[math]$\sum\limits_{i=0}^k \frac{(\nu_i-np_i)^2}{np_i}, $[/math]
где n - общее число испытаний.
Если она большее квантили нужного уровня значимости распределения хи-квадрат с k-5 степенями свободы, то гипотеза отвергается. k лучше брать в районе двоичного логарифма n

griz_a

Второй вопрос - как проверить унимодальность.
Я не большой эксперт в области прикладной статистики, но вроде бы используют классикой считают тест Сильвермана из вот этой работы. Здесь она попроще изложена.
Вот работа поновее, вообще Хартиган-старший, я так понял, в этой области специалист. Там и обзор результатов есть

Rastreador

Оптику надо ботать тебе!

sunny82

Всем спасибо - будем пробовать :)

sunny82

Эээ, осторожно так спрошу - а причём тут оптика? Или ты картинку, схожую с интерференцией углядел там?

Rastreador

не с интерференцией, конечно. Но критерии разумные там даются.

sunny82

Тогда дай, пожалуйста, более конкретную ссылку на критерии.
Оставить комментарий
Имя или ник:
Комментарий: