Критерий Вилкоксона

Bernhard

Народ, помогите! Расскажите, плиз, про критерий Вилкоксона - буквально несколько предложений - формула, для чего применяется и т.д.

griz_a

До 8 потерпит? Вернусь - расскажу

natali22061979

И мне, пожалуйста, тоже :)
Как выбирается критическая область при заданном уровне значимости?

griz_a

Сорри, компа своего у меня нет, так что пришлось подождать
критерий ранговых сумм Уилкоксона используется при проверке гипотезы об однородности двух выборок, при альтернативе доминирования второй из выборок (т.е. мажориуемости первой выборки второй).
Он робастен (устойчив к выбросам поскольку ранговый. Применяется, если изначально известно/допущено, что вторая ф.р.>=первой.
Пусть выборки X_1,X_2...,X_n,Y_1,Y_2,..Y_m(оригинальный критерий Уилкоксона применяется для выборок одного размера, но есть и обобщение на выборки разного размера)
Строится совместный вариационный ряд и каждому Y_(i) (т.е. i-ому члену вариационного ряда только по Y_i, считая с минимального) сопоставляем его его номер S_i в этом вариационном ряду, считая с минимального, i=1..m Имеем S_1<S_2..., S_i>=Y_(i)
V=S_1+S_2+...+S_m
Суть критерия заключается в том, что если выборка 2 доминирует, то S_i должны неравномерно распределяться по совместному вариационному ряду, а тяготеть к смещению вправо, потому V будет большим.
Строго:
U=V-m(m+1)/2 =>
EU=nm/2, DU=nm(m+n+1)/12
U1=(U-EU)/sqrt(DU) по распределению стремится к нормальному закону при большой выборке.
Таким образом, гипотеза однородности при альтернативе доминирования отвергается, если
U1>z_{1-alpha},
где z_{1-alpha} - квантиль нормального распределения, alpha - уровень значимости.
Метод несколько изменяется, если среди элементов бывают совпадения и если выборка не очень большая. Если потребуется, то напишу эти случаи
Итоговая формула
(V-m*(n+m+1)/2)/sqrt(nm(m+n+1)/12)>z_{1-alpha}

natali22061979

Балшое спасибо!
Вот мое понимание изложенного на примере от балды придуманного ряда:
Я таки вас правильно понял?

griz_a

правильно, с точностью до того, что нормальное приближение используют при n,m>=25, если до 50, то с поправкой, завтра могу написать поправку, если больше, то без. А при малых выборках смотрятся таблицы статистики уилкоксона

natali22061979

>что нормальное приближение используют при n,m>=25
Это я понимаю, ну не рисовать же было тут целый лес? :)
В твоих обозначениях, статистика Вилкоксона (Уилкоксона) это с.в. V, которая строится как сумма рангов членов выборки.
Не могу понять, почему в наших лекциях еще и учитывается знак, который имеет член ряда. Т.е.,
V = сумма (S_i * z_i где z_i = -1, если член выборки X_i был отрицательный, +1, если он был положительный.
P.S. Ужо понял, объяснять не надо :)

Bernhard

Спасибо большое!

Goodnight18

В твоих обозначениях, статистика Вилкоксона (Уилкоксона) это с.в. V, которая строится как сумма рангов членов выборки.
Не могу понять, почему в наших лекциях еще и учитывается знак, который имеет член ряда. Т.е.,
V = сумма (S_i * z_i где z_i = -1, если член выборки X_i был отрицательный, +1, если он был положительный.
а ты можешь написать мне - как ты это понял? И вообще - как сказанное выше коррелирует с нашими лекциями по этому вопросу?

natali22061979

>а ты можешь написать мне - как ты это понял?
Ну, скорее из каких-то качественных соображений. Суть всех этих критериев сводится к выдумыванию некоей функции от выборки, которая будет при больших N стремиться к какому-нибудь хорошему распределению типа нормального или Хи-квадрат, например. Задача этой функции попадать или не попадать в критическую область. Кажется очевидным, что функция от положительной выборки должна попадать в другую точку нежели функция от отрицательной выборки. Стало быть, если имеет место выборка содержащая отрицательные члены, то статистика должна это дело учитывать.
>И вообще - как сказанное выше коррелирует с нашими лекциями по этому вопросу?
Не особо понял, если честно. Решил, что если я поведаю Круглову вышеизложенное, он не сильно обидится. Особенно если учесть, что почти во всех книжках про критерий Вилкоксона пишут вовсе не так, как в его лекциях.

griz_a

Со знаками довольно странная метода, не могу представить пока, зачем это надо. "Подправленный" критерий болезненно реагирует на смещение данных, хотя для проверки мажорируемости не страшно смещение обеих ф.р. вправо
Ну и вообще, знаки - будут у маленьких рангов, а + у больших, поэтому не очень вижу в чем соль, видимо, критерий будет приниматься, если отрицательных чисел в выборке Y много, а положительных мало зачем это?

natali22061979

Короче, в нашем курсе лекций, критерий Вилкоксона вообще вводится для одной выборки.
Рассматривается X_1,...,X_n
Воодится указанная статистика W = R_1*sign(X_1) + .. + R_n*sign(X_n)
Доказывается независимость R_i и sign(X_i)
Вычисляются мат. ожидание EW = 0 и дисперсия DW = n(n+12n+1)/6
Доказывается выполнение ЦПТ для (W-EW)/sqrt(DW)
Собственно, все. Ни слова про то как это применять и строить критическую область.
Буду благодарен, если будут комментарии :)

Goodnight18

скажи, а почему в твоем объяснении критерия вилкоксона статистика U=V-m(m+1)/2 определяется именно таким образом?

griz_a

На самом деле неважно, они ведь отличаются на константу, т.ч. V тоже асимптотически нормальная с той же дисперсией, про U - статистика Манна-Уитни, она сама по себе полезная =)

Goodnight18

а можешь все таки про критерий знаков рассказать, если тебе не трудно , а то я что-то совсем запуталась

natali22061979

Да, не помешает. Кстати, критерий знаков у нас тоже вводился для одной выборки, если что.

griz_a

Нашел. Это критерий знаковых рангов Уилкоксона. Он используется в несколько других случаях. Пусть у нас есть парные наблюдения, т.е., грубо говоря, у нас была грядка, замеренная перед удобрениями, и грядка, замеренная после удобрений. В том, который я приводил, там были две разных грядки, одна с удобрениями, вторая без.
Т.е. тут выборки могут быть зависимы и должны быть одного размера. И проверяется гипотеза о том, что эффекта не было, против гипотезы, что положительный эффект был (т.е. матожидание не изменилось против оно возросло). Здесь уже не идет речи об мажорируемости ф.р., только об матожидании.
Знаковый критерий Уилкоксона применяется, если ф.р. приращений Y_i-X_i -непрерывна и симметрична относительна матожидания, т.е. F_{Y_i-X_i-E(Y_i-X_i)}(-x)=1-F_{Y_i-X_i-E(Y_i-X_i)}(x) (X_i независимы, о.р., Y_i независимы, о.р.)
Тут уже берется другая статистика.
Z_i=Y_i-X_i
R_i - ранг модуля Z_i в вариационном ряду модулей.
U_i - Индикатор Z_i>0 (1, если да, 0, если нет)
T=sum_{i=1..n} R_i*U_i
ET=n*(n+1)/2
DT=n*(n+1)*(2n+1)/24
T1=(T-ET)/sqrt(DT)->N(0,1)
Причем здесь тоже будет правый доверительный интервал
T1>z_{1-alpha} - отвергаем гипотезу.
Тут фишка в том, что если распределения с одним матожиданием, то Z_i в среднем 0, поэтому сумма рангов положительных будет не очень большая.
В вашей версии, видимо, считается, что сумма рангов положительных Z минус сумма рангов отрицательных Z будет не очень большой (там уже, конечно, другие дисперсия и м.о.)
Поэтому, видимо, у вас берется также правый интервал

griz_a

Критерий знаков для повторного наблюдения (та же одна грядка) используется в том же случае, что знаковый критерий Уилкоксона, но не предполагает симметричности ф.р. разностей относительно м.о.
Берутся те же U_i
S=sum{i=1..n} U_i
Тогда S1=(S-ES)/sqrt(DS)->N(0,1)
ES=n/2
DS=n/4
Аналогично, если S1>z_{1-alpha}, то гипотеза не принимается.
Да, асимптотическая нормальность в обоих критериях, конечно, только при условии, что гипотеза верна. Именно поэтому, если мы видим не нормальность выборки, то мы не принимаем гипотезу.
Суть критерия знаков почти в том же, что и рангового критерия Уилкоксона - если разности в среднем 0, то положительных не будет сильно больше половины
Но Уилкоксоновский критерий более тонкий, он смотрит не только знаки, но и насколько большие разности. Например, положительных разностей может быть половина, но они будут самые большие, это наводит на мысль, что разности смещенные.
Зато знаковый критерий не требует симметричности распределения разностей.

natali22061979

Спасибо!
Только вот в книжице Ивченко рассматривают статистику
S = 4/n * (g - n/2)^2 -> Хи-квадрат (а не к нормальному)
где - g - число отрицательных разностей.
А в наших лекциях, вообще, по-другому. Без привлечения каких-либо распределения типа нормального или Хи-квадрат.
При таком богатстве подходов к критерию знаков, я теперь даже не знаю, что и делать.

griz_a

К хи-квадрат с одной степенью свободы? Тогда они просто взяли и возвели в квадрат мою статистику критерия знаков, а хи-квадрат 1 - это просто квадрат нормального. Поэтому почти одно и то же, за исключением того, что они рассматривают уже сильно ли отклонение модуля, а потому, видимо, проверяют гипотезу ни об увеличении м.о., а об изменении

Goodnight18

спасибо!
Оставить комментарий
Имя или ник:
Комментарий: