Помочь со статистикой

Sensor4ik

Коллеги-математики, помогите решить научную проблему, связанную со статистикой.
У нас есть экспериментально измеряемая величина х, распределенная нормально с матожиданием 0 и дисперсией s^2 (это точно).
В каждой серии экспериментов измеряется от 8 вплоть до 200 и более независимых значений x (пока не сдохнет :)).
В каждой серии вычисляется величина 1/SD (точнее, пропорциональная ей величина где SD несмещенное, то есть среднеквадратичное отклонение делится на корень квадратный из n-1.
Недавно мы проанализировали очень много таких серий и выяснили, что для серий длиной в 8 значений наш результат, пропорциональный 1/SD, в среднем на 12.5% выше, чем в длинных сериях (100-200 значений).
В сериях длиной 18 значение 1/SD в среднем на 5% выше, чем в длинных сериях.
И т.д.
Я промоделировал ситуацию в Математике методом Монте-Карло и получил те же значения смещений среднего от 1/SD в зависимости от числа измерений, что и наблюдаются в эксперименте.
Возникло логичное предложение, что надо скорректировать 1/SD для серий разной длины, чтобы получить несмещенные средние.
Можно ли как-нибудь теоретически показать, что такое смещение должно быть, и рассчитать функцию от n для коррекции среднего 1/SD?

griz_a

Так, мне сегодня не дается чтение, поэтому с третьей попытки попробую
(n-1)SD^2/s^2 имеет распределение хи-квадрат n-1, значит E(1/SD) есть
\sqrt{(n-1)}/s/(Gamman-1)/2)2^{(n-1)/2}) \int_{0}^{\infty} x^{-1/2} x^{(n-1)/2-1} e^{-x/2} dx = sqrt{n-1}/s Gamma(n/2-1)/Gamman-1)/2)
Итого смещение в \sqrt{n-1} Gamma(n/2-1)/Gamma(n/2-1/2)

griz_a

А пока не сдохнет - это связано с наблюдаемыми значениями или нет? А то там зависимость может возникнуть через число испытаний.

Sensor4ik

Нет, не связано. Если из длинных серий взять любые 8 последовательных значений, то опять же для кучи таких выборок 1/SD оказывается завышенной, и на ту же величину.
Я вчера весь день дивился чуду и проверял всякие варианты влияния, пока не убедился, что дело в основном в объеме выборки. Сделал симуляцию в Математике и получил такую же закономерность.
И тут стало понятно, что что-то я недопонимаю про стандартное отклонение по выборке.

Sensor4ik

Так, мне сегодня не дается чтение, поэтому с третьей попытки попробую
Вот это вот оно, то что ты имел в виду?
http://en.wikipedia.org/wiki/Standard_deviation#Unbiased_sam...
Ну, только обратная величина, потому что у меня 1/SD.
Просто по твоей формуле получается сильно больше, чем реальное завышение (для n=8 59%, а у меня всего 12.5% а по той, что есть в Википедии - меньше, чем реальное завышение (для n=8 3.6%, а у меня 12.5%).
В другой статье Википедии есть указание на занижение SD (в моем случай завышение 1/SD) при наличии корреляций в последовательности данных (http://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation#Example_of_bias_in_standard_deviation). Ну хорошо, некоторую скоррелированность я могу допустить и искать ее причину в экспериментальной установке, но при моделировании в Математике-то почему получились те же 12-13% для n=8? :confused:

griz_a

Имел ввиду то, что три раза пост переписывал, сперва не учел n-1, потом сообразил, что СД, а не дисперсия.
"Ну, только обратная величина, потому что у меня 1/SD."
Не-не-не, M(1/x) > 1/MX в силу неравенства Иенсена, вот и занижается. Так что выход только перепроверять мои подсчеты :)

griz_a

Недопонимаешь ты простую вещь - если оценка несмещенная, то функция от нее уже не факт что несмещенно оценивает функцию от параметра. Выпуклые вниз функцию будут смещенными в большую сторону, а вверх - в меньшую

griz_a

О, да, я идиот, надо еще на корень из двух все поделить
Арифметика мне сегодня не дается :(

Sensor4ik

Недопонимаешь ты простую вещь - если оценка несмещенная, то функция от нее уже не факт что несмещенно оценивает функцию от параметра. Выпуклые вниз функцию будут смещенными в большую сторону, а вверх - в меньшую
Ок, это вполне понятно.
Тогда 1/х - выпуклая вверх или вниз для положительных значений (SD>0)? И есть ли какой-нибудь вариант для нее оценить смещение?

griz_a

Я же уже выдал исправленный ответ: мой ответ в первом посте надо на корень из двух поделить, потерял при интегрировании.
В общем виде, конечно, поправку не выведешь, а для твоей конкретной задачи - пожалуйста
Оставить комментарий
Имя или ник:
Комментарий: