Подобрать центральную статистику для доверительного интервала

natali22061979

Все уже забыл. Помогите, кто умный.
Значит, так. Даны две случайные величины X, Y имеющие биномиальное распределение (у каждой свое). Оцениваемым параметром является p. Реализации величин x, y - даны. Уровень значимости тоже дан.
Надо построить доверительный интервал для p1 - p2.
Собственно, вопрос: какую в данном случае можно взять центральную статистику?

griz_a

Если выборка достаточно большая, то потянет штука типа
[math]$$ \frac{\bar{X}-\bar{Y}}{\sqrt{n S_1^2 + m S_2^2}}$$[/math]

griz_a

Если выборка такая, что для ЦПТ хватит, а вот дисперсию на [math]$S^2$[/math] адекватно не заменишь, то можно сделать что-нибудь в духе
[math]$$ \sqrt{n} (\bar{X}-p_1)/\sqrt{p_1(1-p_1)}\sim N(0,1)$$  $$2\sqrt{n} (\arcsin{\sqrt{\bar{X}}}-\arcsin{\sqrt{p_1}})\sim N(0,1$$  $$2\sqrt{n} (\arcsin{\sqrt{\bar{Y}}}-\arcsin{\sqrt{p_2}})\sim N(0,1$$  $$p_1-p_2 = \sin(\arcsin(\sqrt{\bar{X}}) - n^{-1/2} \sin \xi_1)^2 - \sin(\arcsin(\sqrt{\bar{Y}}) - n^{-1/2} \sin \xi_2)^2$$   [/math]
То есть эта величина имеет фиксированное, пускай и страшненькое распределение, у которого можно взять квантили.

natali22061979

Выборка из одного значения )
дана одна реализация для X и одна реализация для Y.

tester1

Саш, а каким боком тут возникают арксинусы? Интересно.

griz_a

Я под [math]$ \bar{X}$[/math] понимал как раз значение биномиальной величины, деленной на второй параметр распределения :)
Фактически биномиальная величина это то же самое, что куча бернуллиевских в данной задаче :)

griz_a

А вас М.Б. не учил что ли?
Из ЦПТ для бернуллиевских величин имеем
[math]$$\sqrt{n}(\bar{X}-p)\rightarrow\xi \sim N(0, p(1-p$$[/math]
Это неудобно, потому что параметр болтается и в числителе, и в знаменателе. Как бы его убрать?
Но! [math]$$ \sqrt{n} (f(\bar{X})-f(p\rightarrow \eta \sim N(0, p(1-p) (f'(p^2). $$[/math]
Это довольно просто понять, ибо [math]$$ f(\bar{X})= f(p)+(\bar{X}-p)f'(p) + O(1/n). $$ [/math]
Значит f'(p) надо взять равным [math]$(p(1-p^{-1/2} $[/math], тогда дисперсии не станет и все получится. Отсюда и арксинус корня.

tester1

Офигеть можно, очень любопытно, спасибо!
Я посетил все семинары, такого приёма не помню. Домашку решал не всю, лишь необходимый минимум, но вроде и там не было.

griz_a

to : Разобрался? Или пояснить получше?
Все зависит от того, насколько большой параметр n у биномиальных величин. Если, скажем, 100-200, а величина больше 10 и меньше n-10, то не парься и бери первый способ. В качестве S^2 берешь [math]$ \overline{X}(1-\overline{X})$[/math], где [math]$ \overline{X} = X/n_1$[/math]
Если 20-100, то лучше вторым методом, пусть он и геморный. Ну 10-20 тоже можно попробовать, погрешность можно неравенством Берри-Эсеена оценить, если нужно. В целом, если у тебя больше чем 1-2 величина и меньше чем [math]$n_1 - 2$ [/math], то при 10 еще куда ни шло будет.
Если меньше 10, то дело пахнет керосином. Тут уже нормальным приближением не воспользоваться и надо пользоваться обратной функцией к биномиальному закону, которая даже при маленьких n выглядит паршиво. Центральная статистика здесь едва ли найдется, я, по-крайней мере, ее даже представить не могу.
to bobel: эх, а нам рассказывал. Метод действительно полезный и изящный.
to гы-гы-гы: Ну как-то так, да :)

Niklz


надо пользоваться обратной функцией к биномиальному закону, которая даже при маленьких n выглядит паршиво
а какая разница, как она выглядит, ему ж не смотреть на нее :) вычисляется не хуже функции синус http://www.mathworks.com/help/toolbox/stats/binoinv.html я вообще нормальным приближением не пользовался в экспериментах, лишнее усложнение.

griz_a

а какая разница, как она выглядит, ему ж не смотреть на нее :) вычисляется не хуже функции синус http://www.mathworks.com/help/toolbox/stats/binoinv.html
Хм, а ты дальше с ней что собираешься делать? Это тебе не семейство сдвига-масштаба, тут обратная функция для одного биномиального никак не поможет в подсчете любого другого.
Центральную статистику неасимптотическую ты вряд ли построишь.
Значит получается придется действовать через точечную оценку с монотонной по параметру функцией распределения. Беда в том, что параметра 2 и к нужному переходится тяжко.
Брать какую-нибудь статистику с зависящей от [math]$p_1-p_2$[/math] функцией распределения не вариант, где ее возьмешь?
Переходить к новым переменным одна из которых [math]$p_1-p_2$[/math] и искать статистику, монотонно зависящую от этой переменной тоже вроде вариантов не видно.
Тут мне ничего лучше не приходит в голову, чем строить доверительный прямоугольник для параметров и вычленение из него доверительного интервала для разности в виде его диагонали.
Точный доверительный прямоугольник, конечно, построить дело нехитрое, да, решаем уравнения [math]$ F_{X} (\hat{\theta}_1,X)=1-\alpha/2$, $F_{X} (\hat{\theta}_2,X-1)=\alpha/2 $[/math].
Но построение доверительного интервала для разности как диагонали прямоугольника - метод дерьмовый.
Возможно, конечно, я упускаю какой-то другой подход.
я вообще нормальным приближением не пользовался в экспериментах, лишнее усложнение.

Во-первых, для н.о.р. скорость сходимости легко выписывается и проблем нет. Погрешность легко учитывается.
Во-вторых, ни одну сколько-нибудь серьезную задачу в терминах обратной к биномиальной функции распределения не решишь, афаик. Слишком неудачно параметризуемое семейство.

Niklz

мое замечание касалось только того, что не надо бояться функции обратной биномиальному распределению.
а как в этом случае pivotal quantity подобрать без аппроксимации нормальным распределением - у меня тоже мыслей нет. вообще проблема не так проста, как кажется - вон с десяток разных статей/методов есть http://psych.stanford.edu/~jlm/pdfs/Newcombe98Proportions.pd...

griz_a

мое замечание касалось только того, что не надо бояться функции обратной биномиальному распределению.

В практике - не стоит. В аналитике это неприятно, она плохо зависит от параметра, в отличии от большинства непрерывных распределений.
О простоте проблемы никто и не говорил, но нормальное приближение позволяет выпутаться довольно изящно (см. пост 2). Хотя тоже не подарок, конечно.
Дискретное решение будет куда как более громоздким.

natali22061979

Спасибо за пояснение! У меня больше 100. Так что первый способ.
Продолжаю задавать глупые вопросы. Вот выбрал я центральную статистику. А распределение-то у нее какое?

griz_a

Нормальное, ниже исправил какое. Здесь была лажа...

natali22061979

Спасибо!
А почему получилось нормальное распределение? Тут видимо повинна ЦПТ, но я не вижу, как оно тут применилось.

griz_a

[math]$ \overline{X} \sim N(p_1, p_1(1-p_1)/n_1) $[/math]
[math]$ \overline{Y} \sim N(p_2, p_2(1-p_2)/n_2) $[/math]
[math]$ \overline{X} - \overline{Y} \sim N(p_1-p_2, p_1(1-p_1)/n_1+ p_2(1-p_2)/n_2) $[/math]
Вместо [math]$p_1(1-p_1)$[/math] подставляем [math]$ S_1^2$[/math], вместо [math]$ p_2(1-p_2)$ [/math] - [math]$S_2^2$[/math]. Это неточно, но при больших размерах выборки потянет.
Итого
[math]$ \frac{\overline{X} - \overline{Y}-(p_1-p_2)}{\sqrt{S_1^2/n_1+S_2^2/n_2}}$[/math]
[math]$S_1^2 = \overline{X}(1-\overline{X})$[/math]
[math]$S_2^2 = \overline{Y}(1-\overline{Y})$[/math]
В прошлой формуле я затупил, по ходу.

natali22061979

Еще раз спасибо!
Оставить комментарий
Имя или ник:
Комментарий: