критерий пирсона для равномерного распределения

fabio

 я посчитал \hi^2 для выборки которая должна быть с равномерным распределением и хочу оценить насколько она близка к равномерному по критерию пирсона
\hi^2 ~0.076 - что это означает

griz_a

Число степеней свободы-то какое? Сколько категорий и сколько неизвестных параметров?
Вообще 0.076 это как-то очень уж мало. Подозрительно маленькое значение, как будто данные подогнаны под равномерное распределение. А точно все правильно посчитал?

fabio

проблема 1.
есть последовательность, сгенерированная отображеним троичным бернулли на единичном интервале (0,1 ( x(n+1) = {3*x(n)}, где фигурные скобки - взятие дробной части из теории известно, что отображение обладает равномерным инвариантным распределением. Но это из теории. Я получаю эту последовательность на компьютере, путем итераций, и хочу проверить ее "качество", самое простое - насколько близко ее распределение к теоретическому равномерному. Решил для этих целей применить приктери хи-квадрат, посчитал хи-квадрат так:
сделал 1000 итераций (N=1000, длина последовательности разбиваю интервал (0,1) на m=50 подынтервалов, и смотрю сколько в какой интервал попало точек - заодно строю гистограмму распределения с 50ю карманами. Дальше считаю хи-квадрат через частоты, т.е. сумма по подынтервалам i=0 до m-1, в числителе ( e(i) - t(i) )^2, в знаменателе t(i и вся сумма множится на 1/N. Тут e(i) - число точек попавших в i-й карман (подынтервал t(i) - теоретически сколько их должно быть в i-м кармане (подынтервале в случае равномерного распределения на (0,1) и при N=1000, m=50, теор.значение равно 20, т.е. просто длине подынтервала. Можно было в сумме написать частоты, т.е. число точек / N, но я вынес эту N за знак суммы. Вот получилось хи-квадрат 0,076.
Проблема 2. Все тоже самое, только входные данные не генерятся отображением бернулли, а являются байтами файла, т.е. просто целые числа от 0 до 255. Вот нужно по выборке таких данных определить насколько распределение байт близко к равномерному.
Как считать число степеней свободы непонятно, длина выборки 1000, или больше, в случае в файлом, а параметры равномерного распределения - так это просто границы отрезка.
вот скрин из маткада по первой проблеме, с бернулли -

griz_a

Тут какая-то неразбериха, по-моему. Последовательность x_n подряд идущих это никак не равномерные независимые величины :confused:

fabio

>ут какая-то неразбериха, по-моему. Последовательность x_n подряд идущих это никак не равномерные независимые величины"
псевдослучайные числа это, с теоретическим равномерным распределением
тут мне все равно на самом деле какая входная последовательность, вопрос в том что делать с хи-квадрат, как по нему решить похоже распределение на равномерное или нет
ну а в случае с файлом - там просто набор байт, чисел от 0 до 255, которые как-то распределены, если посчитать для них хи-квадрат как определить насколько близко их распределение к равномерному?

griz_a

У какой-то с большим номером - да распределение суть равномерное. Но последовательности никак не равномерные независимые.
Собственно, хи-квадрат так и сказал - на равномерные непохоже, слишком уж ровненькие частоты.
Оставить комментарий
Имя или ник:
Комментарий: