Обоснование выборки в статистике

BMWOD

Есть ли какое-то научное обоснование того, что можно не опрашивать всех-всех-всех, а опросить 1000 случайных и использовать эти результаты?
Что можно почитать на эту тему?

sashok01

центральная предельная теорема?

TARZAN

Тут скорее не ЦПТ нужно, а эспирическая функция распределения и, скажем, теорема Гливенко-Кантелли и неравенство Берри-Эссеена.

a7137928

Что можно почитать на эту тему?
Любую книгу по статистике "для чайников/гуманитариев".
Обоснование такое. Допустим, мы в процессе опроса делаем измерение некоторой случайной величины - рейтинг Путина или рост человека или что угодно. И допустим, что 1000 случайных - реально случайные, независимые друг от друга люди, репрезентативно представляющие всю генеральную совокупность, т.е. все население страны.
Тогда, согласно центральной предельной теореме, среднее значение исследуемой величины по нашей выборке с ростом числа наблюдений будет становиться очень похожим на гауссово распределение с определенными параметрами (a,s^2). В качестве параметра a берут выборочное среднее, в качестве s^2 - выборочную дисперсию (причем лучше несмещенную, т.е. n/n-1 от настоящей выборочной дисперсии).
В этот момент делается допущение, что распределение среднего значения не просто похоже на гауссово, а оно и есть гауссово с указанными параметрами. Далее произносится заклинание "с вероятностью 95% значение гауссовой величины лежит в интервале плюс-минус 1,96s от среднего, поэтому истинное значение наблюдаемого параметра на всей генеральной совокупности находится в промежутке [a-1.96s;a+1.96s] с вероятностью 95%".
Или какое-нибудь другое похожее заклинание с другой циферкой вероятности.
Вот примерно так это работает.
В реальной жизни гуманитарии тупо берут среднее, выборочную дисперсию, коэффициент 1.96 для 95% или 2.57 для 99% или 3 для 99.8% (знаменитое "правило трех сигм" подставляют в заклинание и ходят довольные.
Люди чуть более прошаренные могут запариться на тему того, что если наша выборка не является случайной (т.е. измерения не являются независимыми то главное предположение о сходимости к гауссовому распределению оказывается неверным. Поэтому, когда всякие там вциомы исследуют рейтинг путена, они по-серьезному опрашивают людей в разных регионах, чтобы получилось репрезентативно. Иначе сходиться не будет.
Совсем прошаренные могут задаться вопросом "а как быстро оно сходится к гауссовому? Вот если у меня всего 30 наблюдений - успеет сойтись?". Впрочем, это не всех заботит. Во всяких там медицинских исследованиях, насколько я читал, люди не имеют возможности проводить сотни экспериментов, поэтому они дают пилюлю двадцати больным, а потом делают морду кирпичом и аппроксимируют выборочное среднее гауссианой, несмотря на явную недостаточность числа наблюдений.

TARZAN

Участвовал в медицинском исследовании со стороны статистической обработки. Даже при условии, что это было полностью проделано в России , уже количество экспериментов было больше 300.

demetrius86

Есть ли какое-то научное обоснование того, что можно не опрашивать всех-всех-всех, а опросить 1000 случайных и использовать эти результаты?
Некто Гэллап (тот самый да) сделал на этом себе имя и состояние.

kirawa

Parexel скорее всего это подтвердит

Morian

В этот момент делается допущение, что распределение среднего значения не просто похоже на гауссово, а оно и есть гауссово с указанными параметрами
Гуманитарий сообщает, что выборочное стандартное отклонение надо на корень из эн поделить еще.

griz_a

Это чтобы поддержать стереотипы о гуманитариях, я так понимаю? :)

Arthur8

нет, нельзя, было что-то, какаято теорема. вот например возьмем белый шум, где значения шума меняются во всем диапазоне частот(числового ряда от -1 до +1
усреднение по всему спектру (числовому ряду) дает суммарный сигнал = 0, если брать вместе сумму случайных чисел. А на определенных участках он может быть либо 1 либо -1
ну типа если посадить за печатную машинку миллиард триллионов обезъян, то одна из них обязательно напечатает Евгения Онегина. можно вот найти эту обезъяну и сказать, что вот да, она напечатала, значит так оно и есть

Arthur8

минусовавшие, обоснуйте

griz_a

Ты не понимаешь базовой сути статистики, но пытаешься критиковать ее методы :)

Arthur8

вот есть ряд из 10 элементов, выборка это конкретно 4 и 5-й элемент из ряда и они ведут себя неадекватно скажем, если на выборку подействовать оператором.
а мне предлагается по выборке из 4-го и 5-го судить о 7 и 8-м элементе, как они будут себя вести - это никому не известно - их не измеряли. прибор то может и взорваться.
или одно и тоже, какойннить институт Геллапа провел опрос среди миллиона человек, но спросил только тех 100 человек, которые обладают состоянием в лям баксов. А к остальным поехать побоялся, потому что там и убить могут. И что, выборка для суждения о всех по суждению о ста есть истина?

Sergey79

нет, нельзя, было что-то, какаято теорема.
только не теорема, а Директива "О привнесении порядка"
\S 1. На протяжении последнего года Управление по лесу
существенно улучшило свою работу и достигло высоких показателей
во всех областях своей деятельности. Освоены, изучены,
искоренены и взяты под вооруженную и научную охрану многие
сотни гектаров лесной территории. Непрерывно растет мастерство
специалистов и рядовых работников. Совершенствуется
организация, сокращаются непроизводительные расходы,
устраняются бюрократические и другие непроизводственные
препоны.
\S 2. Однако наряду с достигнутыми достижениями,
вредоносное действие Второго закона термодинамики, а также
закона больших чисел все еще продолжает иметь место, несколько
снижая общие высокие показатели. Нашей ближайшей задачей
становится теперь упразднение случайностей, производящих хаос,
нарушающих единый ритм и вызывающих снижение темпов.
\S 3. В связи с вышеизложенным предлагается в дальнейшем
рассматривать проявления всякого рода случайностей
незакономерными и противоречащими идеалу организованности, а
прикосновенность к случайностям (пробабилитность) — как
преступное деяние, либо, если прикосновенность к случайности
(пробабилитность) не влечет за собой тяжких последствий,— как
серьезнейшее нарушение служебной и производственной дисциплины.
\S 4. Виновность лица, прикосновенного к случайности
(пробабилитика определяется и измеряется статьями Уголовного
Уложения NoNo 62, 64, 65 (исключ. пп. С и О 113 и 192 п. К,
или \S\S Административного Кодекса 12, 15 и 97.
Примечание. Смертельный исход прикосновенности к
случайности (пробабилитности) не является как таковой
оправдывающим либо смягчающим обстоятельством. Осуждение, либо
взыскание, в этом случае производится посмертно.

griz_a

А какие утверждения в статистике касаются того, что "что-либо для генеральной совокупности есть истина"?
Статистика по работает со случайной выборкой из генеральной совокупности и оценивает вероятность выполнения для совокупности тех или иных условий.
А ты, если отложить в сторону замешанную в кучу нерепрезентативность выборки (то есть неслучайный выбор из генеральной совокупности говоришь о том, что для маловероятных выборок вывод о совокупности будет неправилен. В том и соль, что это для маловероятных выборок.

tester1

Ты не понимаешь базовой сути статистики, но пытаешься критиковать ее методы
а можно я встряну?
вот скажи, пожалуйста, правильно ли я понимаю, что базовая суть статистики - это решать обратные задачи теории вероятностей?
прямая задача: известно распределение случайной величины, надо судить о её реализациях.
т.е. при известной случайной величине находить вероятности каких-то связанных с ней событий (попадание реализации в какое-то множество, например)
обратная задача: известно, что данный объект есть реализация случайной величины, надо судить о её распределении.
т.е. на основе, скажем, конечного числового ряда проверить какую-то гипотезу о распределении случайной величины, которая, как предполагается, имеет этот числовой ряд своей реализацией, или каждое значение ряда есть её независимая реализация
правильно я понимаю?

griz_a

Правильно, но ты не упомянул ключевые слова, из-за которых Вилфред и негодует.
т.е. на основе, скажем, конечного числового ряда проверить какую-то гипотезу о распределении случайной величины, так, чтобы ошибались мы не слишком часто (с вероятностью не больше заданной величины)

Это тоже не совсем правда, потому что речь не об ошибке вообще, а о каких-то определенных ошибках (например, только первого рода но суть так
Плюс задачи все-таки не только проверки гипотез бывают :)

tester1

Правильно, но ты не упомянул ключевые слова, из-за которых Вилфред и негодует.
Я посты Вилфреда вообще не читал. По теме "статистика" мне твои посты более интересны, а времени читать всё-всё нет.

demiurg

Ну и вдобавок ко всему написанному выше:
ЦПТ и предположение о гауссовом распределении — это только первое приближение. И если оно не выполняется, то это не значит что всё пропало или что надо опрашивать всех-всех-всех.
Можно предположить другое распределение, более соответствующее действительности (конечно, надо знать больше про действительность можно строить более сложные модели, которые будут учитывать географическую и социальную неоднородность, можно даже дополнять их компьютерными симуляциями.
Например, перед последними выборами в США некий Nate Silver занимался примерно этим, у него был блог http://fivethirtyeight.blogs.nytimes.com (538 — это число выборщиков и число мест в House of Representatives, нижней палате Конгресса).
Он предсказывал вероятности результатов выборов. То есть не просто там что 51 процент за Обаму и 48 за Ромни, а типа вероятности того, что победит один или другой, а также вероятности разного числа мест в конгрессе для партий. В качестве данных он использовал все доступные опросы по разным штатам, как современные, так и исторические (то есть связь прошлых опросов с прошлыми результатами он тоже учитывал).
Наверняка использовал какие-нибудь алгоритмы Machine Learning.
В общем, он тоже себе сделал имя на этом и скоро наверное сделает и состояние, теперь он работает вместе с ESPN над спортивной статистикой (думаю, выборы он не бросит, но следующие интересные через год, а президентские через три).
http://www.fivethirtyeight.com

tester1

Правильно
спасибо!

tester1

Он предсказывал вероятности результатов выборов. То есть не просто там что 51 процент за Обаму и 48 за Ромни, а типа вероятности того, что победит один или другой, а также вероятности разного числа мест в конгрессе для партий.
Это было нужно, чтобы цены на опционы правильно установить?

demiurg

Это было интересно.

tester1

Ну а трейдеры использовали, чтобы опционы и фьючерсы оценивать, наверное :grin:

demiurg

Вряд ли, они довольно ригидный народ. Может, некоторые. Да и какие основания верить именно ему?

tester1

Ну, любой хоть немного достоверный прогноз лучше, чем полная неопределённость.

demiurg

Ну вообще Нейт Сильвер, как ты понимаешь, был далеко не единственным кто делал прогнозы исходов выборов!
Оставить комментарий
Имя или ник:
Комментарий: