кластеризация (?)

1853515

в общем задача:
есть N пользователей, M ресурсов и информация о том, кто какие ресурсы сколько раз запрашивал.
хочется разбить все это дело примерно следующим образом:
1) юзеры 1,3,5,8 в основном юзают ресурсы 3,4,7
2) юзеры 2,4,6,7 - ресурсы 1,9,12
3) и т.д.
оптимально 3-5 групп (наверное)
что про это почитать (вроде к субжу это имеет отношение - но если нет, то не пинайте :)) или как сделать?
заранее спс

a7137928

Отношение имеет. Почитать - поботай инет. Довольно много ресурсов на английском языке, где более-менее подробно написано, ключевые слова "k-means cluster analysis". На русском есть вот такая штука:
http://www.statsoft.ru/home/textbook/default.htm
Попробуй загрузить данные в какой-нибудь стат. пакет и погонять. Только если у тебя практическая задача, то почти наверняка будет не так, как ты ожидаешь, на халяву кластеры обычно не выделяются. Может быть, надо будет выбирать группу значимых переменных (т.е. сайтов и в качестве центров кластеров брать определённые средние по этим переменным.

Focz

Вот один из способов:
1) Каждого пользователя можно рассматривать как точку линейного пространства с координатами, равными числу запросов данным пользователем каждого ресурса.
2) С помощью вышеназванного "k-means cluster analysis" можно кластеризовать эти точки в сколько угодно кластеров. У каждого кластера будет центр, равный среднему арифметическому входящих в него точек.
3) Теперь каждый ресурс относим к тому кластеру, центр которого имеет наибольшую соответствующую координату. То есть к тому, члены которого в среднем больше всего запрашивали данный ресурс.

disepa

1) Каждого пользователя можно рассматривать как точку линейного пространства с координатами, равными числу запросов данным пользователем каждого ресурса.
Возможно лучше будет поделить каждое число запроса ресурса нп=а общее число запрошенных
ресурсов пользователем.

Ionized

Вот две небольших методички, более-менее рассказывающих об основных алгоритмах кластеризации. Я с них начинал изучение этой тематики.)

Николенко "Алгоритмы кластеризации"
Котов, Красильников "Кластеризация данных"
Оставить комментарий
Имя или ник:
Комментарий: