Использование распределения Стьюдента

tatushnik77

   Как с его помощью определить, с какой вероятностью данная выборка соответствует заданному распределению?

Vlad128

С хи-квадрат не путаешь?

tatushnik77

упс, а может и путаю. а они разве не совместно применяются?
может и путаю. А как с помощью хи-квадрат?
мне можно и не разжевывать, просто если есть книжка в инете — я бы ее и сам прочел.

Vlad128

В инете не знаю, но там просто.
Скажи хоть что за распределение, с которым согласие надо проверять? Тогда расскажу.
Или можешь гуглить критерии согласия Пирсона/Колмогорова/еще кого-то есть, не помню.

a7137928

критерии согласия Пирсона/Колмогорова
Кажется, "критерий согласия Пирсона" и "тест Колмогорова-Смирнова". Второе никак с хи-квадратом не связано. Про "согласие" может быть наврал.
Автору треда: вкратце про то, как проверяется соответствие эмпирического (наблюдаемого) распределения теоретическому. По наблюдениям ты строишь какую-то статистику. Желательно, чтобы эта статистика асимптотически хорошо стремилась к какому-то заранее известному тестовому распределению, тогда можно сделать хороший стат. критерий, посмотрев, с какой вероятностью мы можем получить такое значение статистики. Грубо, статистика - это "расстояние" между теоретической и эмпирической функциями распределения, если оно большое, то плохо (маловероятно, чтобы совпали если маленькое, то хорошо (с большой вероятностью совпадают.
Два, пожалуй, основных критерия - это К.-С. и хи-квадрат Пирсона.
1) К.-С.: составляем эмпирическую функцию распределения, считаем статистику, равную супремуму (на R) модуля разности эмпирической и теоретической функций распределения. Эта статистика стремится к распределению Колмогорова.
2) Пирсон. Разбиваем всю прямую на некоторое количество интервалов (обычно равных, но кажется это даже не обязательно). Согласно теоретическому распределению, есть теоретические вероятности попаданий в интервалы (интегралы плотности по этим интервалам): p_i. В то же время, наблюдаемая выборка дает эмпирические вероятности попаданий в интервалы: q_i=N_i/N (сколько попало в интервал делить на размер выборки). Составляем статистику \sum (p_i-q_i)^2 и говорим, что она распределена по хи-квадрату (кажется, надо еще ее привести как-нибудь, поделить на число интервалов что ли).
Оба способа допускают определенную свободу. Например, в Колмогорове-Смирнове ты можешь по-разному подбирать теоретическое распределение. Обычно подбирают распределение из одно- или двухпараметрического семейства (например, среди экспоненциальных, или нормальных, или лог-нормальных, и т.д. и тогда в качестве теоретического берут такого представителя семейства, чтобы первые два момента в теоретическом распределении совпадали с эмпирическими моментами.
В пирсоне есть два важных момента. Во-первых, очень большая свобода в выборе интервалов. Часто реальные данные устроены таким образом, что дают не непрерывную, а дискретную шкалу (например, только целые значения из достаточно большого промежутка). Если ты сделаешь интервалы слишком мелкими, то в часть из них целые точки не попадут вообще. На таких интервалах у тебя теоретическая вероятность больше нуля, эмпирическая ноль. Это даст очень плохой результат теста. Поэтому обычно не ограничиваются одним набором интервалов, а смотрят разные варианты.
Второй момент: в "прикладной статистике" считается, что вычисленная по выборке статистика распределена по хи-квадрату. На самом деле, она конечно же распределена по нему только в случае, если у нас выборка из нормального распределения. Но вроде там есть асимптотическое стремление к хи-квадрату, что позволяет при больших размерах выборки и небольшом количестве интервалов плевать на тот факт, что никакого хи-квадрата там на самом деле нет.
Как-то так. Где про это почитать: википедия, далее по ссылкам. Как обычно, на английском лучше и больше. Есть английские онлайн-учебники (ссылки в википедии можно найти неплохие электронные лекции на русском языке. Книжки - лучшее что есть это Айвазян Мхитарян (в более старых изданиях только один автор, кажется только Айвазян). Это чтобы разобраться. Если не разбираться, а чисто применять, то тоже полно материалов более простого уровня, но сходу не назову.

Vlad128

Составляем статистику \sum (p_i-q_i)^2 и говорим, что она распределена по хи-квадрату (кажется, надо еще ее привести как-нибудь, поделить на число интервалов что ли).
\sum (p_i - q_i)^2 / p_i
По хи-квадрату может быть по-разному распределено. Я как бы намекаю на то, что это распределение с параметром. В данном случае к хи-квадрату с числом степеней свободы r-s-1, где r — число интервалов, s — число параметров неизвестного распределения, оцененных по данным выборки.
В итоге надо смотреть таблицу критических точек распределения хи-квадрат и сравнивать.

Vlad128

Кажется, "критерий согласия Пирсона" и "тест Колмогорова-Смирнова". Второе никак с хи-квадратом не связано. Про "согласие" может быть наврал.
Я и не говорил, что критерий согласия Колмогорова как-то связан с хи-квадрат =)

tatushnik77

Спасибо за подробный ответ.
Нашел такое же в вики, начал читать, твое понятнее оказалось, чем это http://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D1%82%D0%B5%...
Спасибо всем откликнувшимся.
Точно, "критерий Пирсона" надо гуглить. Сейчас посмотрю тогда что-нибудь по критерию Стьюдента.

tatushnik77

   Да, критерий Пирсона, точно.
   А как быть, когда есть одна выборка, а вторая - контрольная? Или под второй выборкой и подразкмевается ТО распределение, формулу которого мы предполагаем известной?

Vlad128

Да, надо посчитать теоретическую вероятность попадания в соответствующий интервал.

tatushnik77

А, все, вот почему я путался.
- критерий Стьюдента — 2 выборки, обе практические,
- критерий Пирсона — 2 выборки, одна практическая, одна - теоретическая, так?

Vlad128

К сожалению критерий Стьюдента не знаю, про Пирсона - все верно, применял, так и есть =)

Sensor4ik

с какой вероятностью данная выборка соответствует заданному распределению?
http://en.wikipedia.org/wiki/P-value#Frequent_misunderstandings

a7137928

- критерий Стьюдента — 2 выборки, обе практические,
- критерий Пирсона — 2 выборки, одна практическая, одна - теоретическая, так?
Вообще говоря, не так.
"Критерий ...(кого-то, не важно кого, например Иванова)..." - это когда ты как-то изготавливаешь из наблюдений статистику, которая распределена по Иванову. Ну или хотя бы асимптотически распределена по Иванову. Что за статистика, как она получилась - не особо важно, ты с полным правом можешь назвать это "критерий Иванова".
Поэтому критериев Стьюдента и Пирсона очень много для разных ситуаций. Часто, чтобы не путаться, пишут дополнительные слова (например, "критерий Стьюдента для двух независимых выборок"). Но так вот сходу сказать, что Стьюдент - это когда две выборки, а Пирсон - когда одна, будет неверно.
Оставить комментарий
Имя или ник:
Комментарий: