Проверка выборки на нормальность

vitamin23

Можно ли считать данные выборки нормальными (как это проверить)? Собственно, основной вопрос, есть достоверные различия между средними выборок. Можно ли по Стьюденту их проверить? Это возможно, если распределения нормальные, а нормальны ли они? Файл данных:[image] [/image]

Nefertyty

в таких случаях надо использовать ранговые критерии, а на нормальность забить (задавал однажды похожий вопрос спецу по статистике)

mtk79

Меня тоже какие-то матстатисты проверяли. Результат теста — отрицательный

vitamin23

в таких случаях надо использовать ранговые критерии, а на нормальность забить (задавал однажды похожий вопрос спецу по статистике)
Что понимается под ранговыми критериями? Непараметрические статистики?

vitamin23

Результат теста — отрицательный
В смысле? ненормальные выборки?

Nefertyty

да, типа такого http://en.wikipedia.org/wiki/Mann%96Whitney_U

vitamin23

да, типа такого http://en.wikipedia.org/wiki/Mann%96Whitney_U
Ясно, пробовала этот тест в программе Statistica. Он не даёт достоверных отличий, а Стьюдент даёт. Поэтому, собственно, и возникает вопрос о нормальности выборок. Всегда же хочется, что бы были различия в выборках

Nefertyty

если подгонометрией заниматься, не проще ли плохие данные просто выкинуть? :)

vitamin23

Не. Мне интересен реальный результат. На сколько мне известно, непараметрические критерии менее чувствительны, чем параметрические.
Так как же всё-таки быть, если Стьюдент показывает достоверные различия средних, а Ман-Уитни нет? Считать, что нет достоверной разницы между выборками?
Да, и Колмогоров-Смирнов даёт достоверные различия средних, а ещё третий тест непараметрический не даёт...

Nefertyty

ну если изначально были и есть основания считать распределение нормальным, то можно использовать стьюдента
если нет, то всё равно можно использовать - но это подгонометрия будет: типа перебираем методы, пока не получим приятный нам результат - видел биологическую статью, где добрались таким образом до совершенно зубодробительного метода, который только недавно придуман и ещё не был опубликован толком

vitamin23

Хорошо, как понять, есть ли основания считать распределение нормальным? Вроде как физические величины являются нормально распределёнными? В данном случае измеряется число клеток определённого типа к площади кусочка ткани (так как общее число клеток проблематично посчитать). Сравниваются "концентрации" клеток данного типа при различных воздействиях.

Nefertyty

Вроде как физические величины являются нормально распределёнными?
Обычно нет :)
Например, нормальное распределение подразумевает возможность получения отрицательных значений, а многие физические величины неотрицательны по определению (хотя этим можно пренебречь, если величины отклонений сильно меньше самой величины).
Нормальное распределение получается в физике, если имеется сумма большого количества независимых случайных величин. У тебя большое количество величин есть - это клетки, а вот с независимостью есть сомнения: если воздействие было на одну клетку, то наверное и на соседнюю тоже.

vitamin23

Под независимостью понимается независимость разных серий экспериментов. Сравниваются данные разных серий экспериментов по конкретному интересующему нас параметру - концентрации клеток типа N. Клеток в каждом образце ткани много, вот образцов немного в каждой серии: от 8 до 15. Поэтому объёмы выборок по концентрациям равны 8-15 для каждой серии опытов.

Nefertyty

> Под независимостью понимается независимость разных серий экспериментов.
Это не та независимость, которая требуется для нормальности распределения.

vitamin23

Кажется примерно понимаю, о чём речь. Имеется в виду, что на концентрацию данных клеток может влиять много других факторов, которые меняются от нашего воздействия?

griz_a

Нормальность выборок должна, по возможности, исходить из физических соображений модели. То есть из какой-то близости к ЦПТ - много маленьких независимых\слабозависимых факторов влияет, например.
Критерии проверки нормальности тоже есть, например, критерий Шапиро-Уилка. В той же статистике он имеется. Если отвергнет - то данные наверняка не нормальные.
Вообще критерий Стьюдента - не очень хороший критерий, он очень болезненно реагирует даже на маленькие отклонения от нормальности. Выборочные дисперсии - штука крайне чувствительная.
Вообще я не понял фразы "Да, Колмогоров-Смирнов дает достоверные различия". Дает и замечательно, значит гипотезу об однородности надо отвергать и дело с концом. Вы вообще в курсе как устроена проверка гипотез?

Nefertyty

нужно, чтобы _каждый_ экспериментальный результат был _суммой_ большого количества _независимых_ факторов
все три выделения - важны
классический пример - броуновское движение
измеряем, насколько сдвигается тестовая частица за данное время
результат каждого измерения - это сумма большого числа микровоздействий
и тогда, сравнив экспериментальное среднее с нулём, мы сможем сделать вывод, есть ли какой-то систематический фактор, сдвигающий частицы в каком-то направлении

vitamin23

Всем спасибо. Поняла, что нужно по Манн-Уитни смотреть. Я жутко ступила - неправильно расположила данные в таблице. Теперь считается как надо!

Slawik75

Да, таких тестов много. Самое простое - количество положительных и отрицательных значений в выборке.
Потом можно сдвинуть на среднее по выборке и отнормировать. У получившихся значений посмотреть квантили и сравнить с нормальными (для чистоты эксперимента квантили надо выбирать заранее).
Можно еще Хи-квадрат тест замутить.

faf5083

Вообще критерий Стьюдента - не очень хороший критерий, он очень болезненно реагирует даже на маленькие отклонения от нормальности.
Серьёзно? Мне казалось, я видел в учебниках, что наоборот. В википедии тоже пишут, что устойчив к небольшим отклонениям от нормальности, ссылаются сюда: Sawilowsky S., Blair R. C. (1992). "A more realistic look at the robustness and type II error properties of the t test to departures from population normality". Psychological Bulletin 111 (2): 353–360.
Про неустойчивость к отклонениям от нормальности обычно пишут у критерия Фишера для проверки равенства дисперсии.
Да, таких тестов много. Самое простое - количество положительных и отрицательных значений в выборке.
Потом можно сдвинуть на среднее по выборке и отнормировать. У получившихся значений посмотреть квантили и сравнить с нормальными (для чистоты эксперимента квантили надо выбирать заранее).
Можно еще Хи-квадрат тест замутить.
Вот это вообще, по-моему, ерунда. Критерием знаков проверяется равенство среднего нулю, что к нормальности имеет весьма отдалённое отношение. Вместо второй процедуры можно построить Q-Q plot, а критерий хи-квадрат слишком общий, для проверки нормальности его мощность невысока.
Критериев, действительно, много, насколько я понимаю, рекомендуется Шапиро-Уилка - по совокупности робастности, мощности и чувствительности к связкам.

griz_a

Sawilowsky S., Blair R. C. (1992). "A more realistic look at the robustness and type II error properties of the t test to departures from population normality". Psychological Bulletin 111 (2): 353–360.
Про неустойчивость к отклонениям от нормальности обычно пишут у критерия Фишера для проверки равенства дисперсии.

Если не полениться и открыть упомянутую работу, то можно там прочитать, что они взяли какой-то набор распределений, которые они считают наиболее частыми для использования там-то и там-то и на нем меряли ошибки и все дела. Если еще выполнен ряд условий на распределения, то для них выходит прилично.
А есть куча работ, где все наоборот, доказывается, что там все плохо .Даже в той же статье можно легко найти. Причем там приводятся примеры, когда ничего не работает.
Кто из них прав по жизни рассудит время, факт в том, что примеры, когда распределения близки к нормальному и t-статистика сосет лапу есть еще с 60х годов, просто можно спорить о том, насколько они искусственные.
Оставить комментарий
Имя или ник:
Комментарий: