Размер выборки для задачи по классификации
Насколько измерения можно считать независимыми? То есть, важно ли, что одно измерение - за 1996-ой год, а другое - за 2009-ый? Или предполагается, что в данных существует некоторая неявная зависимость от года, поэтому если равномерно учесть все данные, то будет, что 2009-ый год учли "в 10 раз сильнее", чем 1996-ой?
В данной задаче объекты - это документы, посвященные определенной теме, всего тем - 21. Каждый год создается очередной новый массив документов и для каждого года ставится задача: разбить массив документов по темам. Все документы, понятное дело - уникальны.
А зависимость "от года" (но в другом смысле) тут есть: с каждым годом ресурсов на создание массива документов выделяется все больше - ну их и штампуют всё больше. Только классифицировать все документы подряд стало нереально. Желательно сократить работу. Построить оценку распределения документов массива по двадцать одной теме на основе выборки определенного размера.
Если так. То
1996 год: создано n1 документов: из n1 извлекается выборка в k1 документов
1997 год: создано n2 документов: из n2 извлекается выборка в k2 документов
...
2010 год: создано n15 документов: из n15 извлекается выборка в k15 документов
ni - дано
Например, n1 = 111.
В группе №1: 30 документов;
В группе №2: 70 документов;
В группах №№3-20: по 0 документов;
В группе 21: 11 документов.
В % отношении:
Группа №1: 27%;
Группа №2: 63%;
Группы №№3-20: по 0%;
Группа №21: 10%.
Но эти частоты для n1 мы не знаем, а работаем с выборкой k1.
К примеру мы взяли k1=50. Cлучайным образом извлекаем 50 документов из полной совокупности документов n1.
Получаем внутри k1 другие частоты, например:
Группа №1: 25%;
Группа №2: 60%;
Группа №№3-20: по 0%;
Группа №21: 15%.
Если бы мы знали частоты для совокупности n1, мы могли бы посчитать следующие отклонения:
для Группы №1 отклонение между величинами частот, существующими в полной совокупности, и величинами частот, оцененными по выборке, составляет: |25-27|=2 процентных пункта;
Для группы №2 отклонение составляет |60-63| =3 п.п.
Для Групп №№ 3-20 отклонение составляет 0 п.п.
Для группы №21 отклонение составляет |15-10| = 5 пп.
Получили, что отклонение между величинами частот для каждой из групп N=1...21 не превышает 5 п.п.
Вопрос: при каком минимальном размере выборки k1 отклонение между величинами частот не превысит 5 (10,15,20 и так далее) процентных пунктов для каждой группы N=1...21?
Поправил объяснение условий.
3.3 - соответствует вероятности ошибки = 0,001. Можно снизить k1 поигравшись с альфа (увеличить вероятность ошибки) и увеличивая отклонение (10%,15% и т.д.)
Как получены в числителе 0.25 и 0.75?
Получаем внутри k1 другие частоты, например:=> что оценка матожидания 0,25
Группа №1: 25%;
0,25*0,75 - это оценка дисперсии (распределение Бернулли)

Оставить комментарий
Aleks150284
Вот такая практическая задача стоит, попробовал формализовать.Есть 15 периодов наблюдения за разными совокупностями объектов - нет ни одного повторяющегося элемента, поскольку в каждом периоде создается новая совокупность объектов. Ниже указаны период (год) и количество объектов, созданных в данном периоде. В каждый из периодов созданные объекты можно классифицировать по N фиксированным группам, для определенности - пусть N = 21.
Работать с каждым объектом (анализировать принадлежность к одной из N групп) - очень трудоемко. Можно ли в данном случае выборочным методом оценить процентное распределение совокупности объектов по N группам - для каждого периода? Каким должен быть размер выборки для каждого периода?