Размер выборки для задачи по классификации

Aleks150284

Вот такая практическая задача стоит, попробовал формализовать.
Есть 15 периодов наблюдения за разными совокупностями объектов - нет ни одного повторяющегося элемента, поскольку в каждом периоде создается новая совокупность объектов. Ниже указаны период (год) и количество объектов, созданных в данном периоде. В каждый из периодов созданные объекты можно классифицировать по N фиксированным группам, для определенности - пусть N = 21.
Работать с каждым объектом (анализировать принадлежность к одной из N групп) - очень трудоемко. Можно ли в данном случае выборочным методом оценить процентное распределение совокупности объектов по N группам - для каждого периода? Каким должен быть размер выборки для каждого периода?
1996	111
1997 196
1998 233
1999 334
2000 468
2001 541
2002 825
2003 754
2004 748
2005 945
2006 1170
2007 1541
2008 1127
2009 1208
2010 1779

gala05

Насколько измерения можно считать независимыми? То есть, важно ли, что одно измерение - за 1996-ой год, а другое - за 2009-ый? Или предполагается, что в данных существует некоторая неявная зависимость от года, поэтому если равномерно учесть все данные, то будет, что 2009-ый год учли "в 10 раз сильнее", чем 1996-ой?

Aleks150284

Похоже, что измерения независимы.
В данной задаче объекты - это документы, посвященные определенной теме, всего тем - 21. Каждый год создается очередной новый массив документов и для каждого года ставится задача: разбить массив документов по темам. Все документы, понятное дело - уникальны.
А зависимость "от года" (но в другом смысле) тут есть: с каждым годом ресурсов на создание массива документов выделяется все больше - ну их и штампуют всё больше. Только классифицировать все документы подряд стало нереально. Желательно сократить работу. Построить оценку распределения документов массива по двадцать одной теме на основе выборки определенного размера.

igor_56

Правильно ли я понял задачу. Рассмотрим хронологическую последовательность из n документов, пусть k из них посвящены "желтой" теме (всего цветов 21). Насколько большим должно быть n чтобы отношение k/n с некой достоверностью определяло вероятность появления "желтого" документа. Так?
Если так. То [math]$n\geq \frac{\sigma^2\alpha^2}{\varepsilon^2}$[/math]., где [math]$\sigma^2=(\frac{k}{n}1-\frac{k}{n})$[/math], [math]$\varepsilon$[/math] - ошибка оценки, т.е. истинная вероятность p лежит в интервале [math]$(\frac{k}{n}-\varepsilon,\frac{k}{n}+\varepsilon)$[/math], а [math]$2(1-\varPhi(\alpha$[/math] - вероятность ошибки.

Aleks150284

По-моему, не совсем. Условия такие:
1996 год: создано n1 документов: из n1 извлекается выборка в k1 документов
1997 год: создано n2 документов: из n2 извлекается выборка в k2 документов
...
2010 год: создано n15 документов: из n15 извлекается выборка в k15 документов

ni - дано
Например, n1 = 111.
В группе №1: 30 документов;
В группе №2: 70 документов;
В группах №№3-20: по 0 документов;
В группе 21: 11 документов.
В % отношении:
Группа №1: 27%;
Группа №2: 63%;
Группы №№3-20: по 0%;
Группа №21: 10%.
Но эти частоты для n1 мы не знаем, а работаем с выборкой k1.
К примеру мы взяли k1=50. Cлучайным образом извлекаем 50 документов из полной совокупности документов n1.
Получаем внутри k1 другие частоты, например:
Группа №1: 25%;
Группа №2: 60%;
Группа №№3-20: по 0%;
Группа №21: 15%.
Если бы мы знали частоты для совокупности n1, мы могли бы посчитать следующие отклонения:
для Группы №1 отклонение между величинами частот, существующими в полной совокупности, и величинами частот, оцененными по выборке, составляет: |25-27|=2 процентных пункта;
Для группы №2 отклонение составляет |60-63| =3 п.п.
Для Групп №№ 3-20 отклонение составляет 0 п.п.
Для группы №21 отклонение составляет |15-10| = 5 пп.
Получили, что отклонение между величинами частот для каждой из групп N=1...21 не превышает 5 п.п.
Вопрос: при каком минимальном размере выборки k1 отклонение между величинами частот не превысит 5 (10,15,20 и так далее) процентных пунктов для каждой группы N=1...21?

Aleks150284

Поправил объяснение условий.

igor_56

Для 1996 года (группа 1) и 5% заданного отклонения имеем по формуле [math]$k_1\ge \frac{0.25*0.75*3.3^2}{0.05^2}=816,75$[/math]
3.3 - соответствует вероятности ошибки = 0,001. Можно снизить k1 поигравшись с альфа (увеличить вероятность ошибки) и увеличивая отклонение (10%,15% и т.д.)

Aleks150284

Как получены в числителе 0.25 и 0.75?

igor_56

Получаем внутри k1 другие частоты, например:
Группа №1: 25%;
=> что оценка матожидания 0,25
0,25*0,75 - это оценка дисперсии (распределение Бернулли)

Aleks150284

Ок, спасибо :)
Оставить комментарий
Имя или ник:
Комментарий: