Сравнение частот в двух выборках

alexandros

Имеются пары следующего типа:есть 2 выборки финнов в одной получена частота генотипа (0.02, при объеме выборки 47 в другой известна частота фенотипа (0.04, при объеме выборке 50). Предполагается что этот генотип определяет этот фенотип (без всяких сложностей, менделирующий признак при полном доминировании, т.е. АА=Аа=1ый фенотип, аа=2ой фенотип). Требуется рассчитать и определится со значимостью отклонения этих частот. Какой метод можно применить для расчетов?

griz_a

Что такое 0.02 при 47 элементах выборки? 1 финн что ли? Тогда нерепрезентативная выборка, боюсь, надо больше финнов

alexandros

Ок, а при таких значениях : объем выборки 938, частота генотипа 0,181 и объем 315, частота фенотипа 0,17?

griz_a

Я не очень в теме биологии, абстрагируемся -
Есть две выборки, в одной 938 элементов и 0,181 успехов, во второй 315 элементов, 0,17 успехов, проверить гипотезу об равенстве средних?

alexandros

Да. Какой метод может быть применен и какие ограничения накладываются на выборки?

griz_a

По ЦПТ при достаточно больших выборках частоты распределены по нормальному закону со средним p_i и дисперсией p_i(1-p_i)/n_i
Если гипотеза верна, то у них одинаковое среднее и пропорциональные дисперсии. Тогда sqrt(n_1*n_2/(n_1+n_2*(v_1-v_2) распределено по N(0,p(1-p причем
|p-v_1|<3/(4n_1) c вероятностью 0,997 , поэтому
T=sqrt(n_1*n_2/n_1+n_2v_11-v_1*(v_1-v_2) распределено N(0,1) с точностью до умножения на sqrt(v_1+3/(4n_11-v_1+3/(4n_1
Можно зажать между квантилями нормальной, если
v_1 значимо больше 3/(4n_1)
1-v_1 значимо больше 3/(4n_1) (хватит в 5 раз, лучше в 10)
Тут еще вопрос точности нормального приближения стоит.
Для этого надо, чтобы sqrt(1/n+mv_1*(1-v_1 было небольшим (меньше 0,15) или же просто добавлять к T этот корень с тем же знаком, что и T и проверять ее на попадание в квантили

griz_a

У тебя вроде все условия выполнены

alexandros

А можно "название" какое-нибудь привести, чтобы можно было почитать и вникнуть в язык того, что написано в твоем посте о счете, а также глянуть какие численные значения выборок должны быть. Просто как правило обследуют 100-200 индивидов, а по некоторым "популяциям" вообще приводятся цифры для 20-30.

k11122nu

обычная ситуация. Как нам говорили преподы-статистики с ВМК, во многих практических случаях хорошей можно считать выборку человек в 1000. А в медицине бывает выборка и по 15 человек - что поделаешь, не заражать ведь специально.

griz_a

Ну почитай Лагутина "наглядная матстатистика". Я часть оттуда и использовал, но концовку пришлось самому додумывать

griz_a

Если тебе просто использовать, то могу переписать попроще :)

alexandros

Угу, мне просто надо тупо сказать что вот там-то и там отклонения случайны, а вот тут уже что-то не то и неспроста.
Тут поскольку это не совсем непосредственно моя задача такой вопрос возник:
Поскольку наши данные не являются параметрическими, применять критерии используемые для расчета параметрических данных (Стьюдента, дисперсия) нельзя.
Мы считаем что нужно использовать точный критерий Фишера, применяемый, когда значения ожидаемых чисел меньше 5.
Можно прокомментировать? :o
P.S. Спасибо за указание на книжку, надеюсь найду и разберусь! :D

griz_a

А это откуда цитата, если не секрет? Я просто не представляю, как для биномиальных величин можно критерий фишера применять :confused:

griz_a

Квинтэссенция моего поста:
Пусть, скажем, первая выборка больше размером.
Тогда если
v_1 значимо больше 3/(4n_1) (например в 5 раз, лучше в 10)
1-v_1 значимо больше 3/(4n_1) (например в 5 раз, лучше в 10)
[math]$T=\sqrt{\frac{n_{1}n_{2}}{(n_{1}+n_{2})v_{1}(1-v_{1})}}(v_{1}-v_{2})+\sqrt{\frac{2}{(n+m)v_{1}(1-v_{1})}}$[/math]
Если T больше 2, то с вероятностью 0,94 гипотезу о равенстве вероятностей можно отклонить.
Если T меньше 2, то оснований для отклонения гипотезы нет.

alexandros


Ну почитай Лагутина "наглядная матстатистика". Я часть оттуда и использовал, но концовку пришлось самому додумывать
А у тебя она в бумажном варианте?
Просто может подскажешь где электронку можно найти? В электронной библиотеке мехмата она числится, но только в виде ed2k хэша, а ссылка на сервер (не помню точно razorback что ли) выдает ничего не найдено.
А может есть какой то способ через хэш файл найти? (просто настолько глубоко с ослом никогда не работал)

alexandros

Это цитата из слов сотрудника.
Просто хм, ни у кого образования не хватает и лично мне хотелось бы не только работать с готовыми формулами, но и иметь представление о смысле производимых вычислений.
http://en.wikipedia.org/wiki/Fisher%27s_exact_test
Точный критерий Фишера вроде бы является "аналогом" хи-квадрат, но позволяет обойти ограничение на присутствие минимум 5 представителей в каждом классе.

griz_a

Первая часть вроде есть в елибе, вторую могу дать бумажную, у меня их 2.
Оставить комментарий
Имя или ник:
Комментарий: