Статистика Колмогорова-Смирнова

TARZAN

Кто-нибудь на практике ее проверял? В контакте много ходит таких перепостов http://vk.com/the_last . Решил ради интереса запрогать статистику. Сначала нормирую наблюдения ( тут выбрал 1,2,...,7 затем сравниваю в полученных точках с эмперической функцией распределения и уже нахожу статистику. Только вот проблема - никогда не получал небольшие значения. В данном примере порядка 40 получил. Это все так плохо или я где-то мог ошибиться?

seregaohota

конечно ошибся, потому что пишется эмпИрической

griz_a


Кто-нибудь на практике ее проверял? В контакте много ходит таких перепостов http://vk.com/the_last . Решил ради интереса запрогать статистику. Сначала нормирую наблюдения ( тут выбрал 1,2,...,7 затем сравниваю в полученных точках с эмперической функцией распределения и уже нахожу статистику. Только вот проблема - никогда не получал небольшие значения. В данном примере пор
Так, для начала мысли надо собрать в кулак.
В чем проблема? Проверить распределение на гауссовость? Причем тут Колмогоров-Смирнов, параметры-то неизвестны. Да и вообще, для данных с 8ью возможными значениями Колмогоров-Смирнов принадлежность к любому непрерывному закону поставит под сомнения, если выборка большая :)
Данные уже сгруппированы, остается только применить критерий хи-квадрат, заменив два неизвестных параметра на оценки ОМП.

TARZAN

http://www.machinelearning.ru/wiki/index.php?title=%CA%F0%E8...
Колмогорова-Смирнова статистика как раз должна теоретически подходить, но не подходит. А Хи-квадрат странная. И увеличении n статистика растет. Так я применил эту статистику к таблице опроса из контакта, которую выложил ранее. Статистика дала ответ: 1336. Я сократил на 10 каждое число. Получил, конечно, в 10 раз меньше. Ощущение, что она хорошо работает с небольшим количеством данных, а при огромном размере выборке она очень сильно зависит от точности совпадения распределений.
Проблема в том, что распределения похожие на гауссовские после проверки не являются такими. И возник вопрос: а кто-нибудь на практике из применял? Может это очень хрупкие статистики.

griz_a

Во-первых, подставлять в Колмогорова-Смирнова выборочное среднее и дисперсию - это очень убогий метод. Если данные численные, то если их мало - используют статистику Шапиро-Уилка, если мало - то эксцесс и асимметрию. На худой конец хи-квадрат. Колмогоров-Смирнов нужен для всяких распределений, для которых нет удобного специального критерия. А уж Колмогоров-Смирнов с выборочными оценками - это вообще нехорошо.
Во-вторых, если данные сгруппированные, то критерий Колмогорова-Смирнова не работает в принципе. Он работает только для непрерывных распределений, а мы заменили непрерывное на приближающее его дискретное. Нет никакого смысла надеяться на аппроксимацию порядка [math]$n^{-1/2}$[/math], если эмпирическая функция распределения всего 8 значений между 0 и 1 принимает, а теоретическая весь отрезок :confused:
В-третьих, хи-квадрат - один из самых используемых критериев в мире. Он очень хорошо работает. Проблема в том, что ваше "похожие на гауссовские" - это одномодальное симметричное распределение. И хоть я вам Коши туда подсуну, хоть распределение Лапласа, вы все равно свято будете верить, что похоже на Гаусса.
А вторая проблема в том, что статистика - это не тот предмет, где прочитав учебник "статанализ для чайников" можно работать с реальными данными.

TARZAN

Во-первых, спасибо за информацию, много было ново мне.
Во-вторых, Колмогоров-Смирнов с выборочными параметрами я использовал, так как нас на мехмате на одном ЕНС преподаватель с теорфера рассказал про этот метод и пару раз надо было его применять.
В-третьих, Я не знал раньше ни про хи-квадрат, ни про Шапиро-Уилка, так как их не рассказывали, теперь буду знать. А проверить моменты в разложении характеристической функции можно. Но это так, наглядная быстрая проверка, как я понимаю.
В-четвертых, я не читаю статистику для чайников. на уровне доказательства того, что требуют на ВАКе по этой специальности я все знаю. Но проблема, что на кафедре не сталкивался с практическим применением статистических гипотез.
и наконец, Я понимаю, что тут не Гаусс, но при том, что на взгляд выглядит достаточно похоже, статистика дает слишком отрицательный результат, на мой взгляд.

griz_a

 
на уровне доказательства того, что требуют на ВАКе по этой специальности я все знаю. Но проблема, что на кафедре не сталкивался с практическим применением статистических гипотез.
К сожалению, в ВАКе по специальности 01.01.05 со статистике нет ничего :( Даже в общем курсе больше.
Хи-квадрат обычно проходят в общем курсе, то, что Колмогоров-Смирнов работает только на непрерывных распределениях - это то, на чем обычно акцентируют внимание. А уж что он не подходит для проверки сгруппированных на 8 кучек данных при гипотезе о непрерывном распределении - это и вовсе понятно. Супремум разницы ЭФР и ФР не меньше 1\10, а должен быть [math]$ n^{-1/2} $[/math].
А по поводу "похоже на нормальное" - я вечером эксперимент проведу, поугадываете, какие из гистограмм нормальные? :)
Если у вас не очень много практики, то вы ориентируетесь, скорее всего, на три показателя - симметричность, одномодальность, не очень медленное убывание. Таких распределений тысяча, а хи-квадрат ищет распределение из узкого спектра. Хотите посмотреть визуально - возьмите от ваших данных Ф и поглядите, похожа ли ЭФР полученной выборки на линейную.

TARZAN

http://mech.math.msu.su/probab/prog-vak.doc В принципе, можно считать, что ее нет. Хи-квадрат у нас был, но только для точечных статистик, ни разу для сравнения функция распределений. Угадывать не хочу. Взять обратную не подумал, но в любом случае для этого ставить программу statistica не очень хочется.

griz_a

Взять обратную в 8 точках может Эксель, а может и любая таблица случайных чисел.
Хотя зачем нам обратная, нам нужна прямая. Берем Ф(1...Ф(8 считаем их частоты и смотрим, похоже ли на прямую.
Оставить комментарий
Имя или ник:
Комментарий: