Сколько документов находится в Интернете

toptygin-bear

где можно получить количество документов (с учетом совпадающих и без учета оных) в интернете и статистику по этм величинам за последние 15 лет?

tinka2302

А что считать документом?
Сколько документов на http://forumbgz.ru ?

toptygin-bear

если без учета дублирующихся документов, то это просто количество уникальных урлов с точностью до перестановки GET параметров То есть для флокала это будет сумма
1) количества страниц топиков всех форумов
2) количества страниц каждого топика со всеми возможными лимитами и во всех возможных представления (плоский, дерево ...)
3) количество всех сообщений форума (их можно по одному на странице просматривать)
4) профили всех пользователей
5) и т.д.
дубликатами считаются два документа, имеющие разный урл (в рамках предыдущего определения) но одинаковый контент. ( посимвольное сравнение).
Точных данных, естесственно, найти по этим величинам нельзя. Однако, должна же быть хоть какая-то информация по рамерам индексов поисковых систем и приблизительной статистической оценке.

Bjanca

тут-то количество доменов в интернете толком посчитать не могут, всё разные цифры генерируют, а ты хочешь кол-во документов...
анриал, имхо
апдейт: инфа по кол-ву сайтов в Сети
31 августа 2006 г. - Netcraft - 98 854 877 прирост по 4,5 млн. сайтов в месяц
31 августа 2007 г. - Netcraft - 135 166 473 прирост по 7,5 млн. сайтов в месяц
25 февраля 2008г. - Netcraft - 162 662 053 сайта
(не подтверждено официально) 30 августа 2008 года - Google неожиданно заявил, что уже порядка 1 000 000 000 сайтов (находил эту статью на других сайтах, но не на Гугле)

toptygin-bear

ну как сказать.. я ж привел пример того, как это считается - размер индекса поисковых систем. я признаю, что там будет большая погрешность, однако для меня она допустима
вот есть у меня цифры:
в 1998 году индекс гугла включал в себя порядка 60 миллионов страниц
в начале 2006 эта цифра возрасла примерно до 25 миллиардов уникальных страниц.
более свежих данных мне найти не удалось, а очень хотелось бы. а так же динамику, за 15 лет.
п.с. надежда умирает последней.. второй день ищу уже. )

tinka2302

Ну количество проиндексированных страниц - уже более реальная задача.
Но оно в разы (если не на порядки) будет отличаться от сформулированного выше "количества документов".

Evgenui

я так думаю, товарищу количество проиндексированных и надо.

tinka2302

Ну можно тут глянуть - хотя очень странные графики.

toptygin-bear

это я согласен. однако общие тенденции роста и развития интернета будут прослеживаться. это очевидно, что за последние 15 лет интернет рос экспоненциальным образом, однако хотелось бы получить численную характеристику/график всего этого дела.
Есть, конечно, и более интересные вопросы, например:
1) каково процентное соотношение блогов/интернет-магазинов/новостей/персональных страниц/страниц компаний/форумов и т.п. в общем числе документов интернета ?
2) какая статистика по навигационным/цитатным/тематическим запросам ?
однако я сомневаюсь, что существуют (в открытом доступе) исследованя на эту тему, так как такое могут позволить себе только гугл/яндекс/яху и, может, еще пару крупных поисковиков, обладающих достаточно большим индексом и аудиторией, а так же существующие более 10 лет на рынке поисковых систем.
и все то же самое в динамике за 15 лет.

Bjanca

очень странные графики
+1
какие-то странные метаморфозы с октября начались... и тут кризис? :confused:

toptygin-bear

да.. очень смущает скачкообразный рост индекса. константа, константа и тут бах - прирост на пару миллиардов документов.
Хотя, в какой-то степени можно объяснить кэшированием. Если, предположим, кэш держится неделю, то в течение этой недели размер индекса будет постоянным (исходя из их алгоритма оценки). Однако это не объясняет ситуации, когда у них константа длится пару месяцев, а потом происходит резкий скачек.
плюс ко всему. на сколько мне известно (из гугл блога, точную ссылку сейчас уже не приведу алгоритм поиска и оценки примерного количества страниц - это два разных алгоритма и работают они независимо. Так что я не думаю, что цифра, которая высвечивается в "найдено примерно" - это адекватная оценка размера (текущего) индекса.

tinka2302

Гугл с 2006 года явно объявил, что будет скрывать статистику, чтобы не давать преимуществ конкурентам.
Думаю, у остальных нечто подобное.
Если общее количество проиндексированных страниц еще можно оценить по косвенным признакам, то вот более подробную статистику получить вряд ли удастся. Если она и существует, то не бесплатна наверняка. Можно у Gartner поискать.

tinka2302

Вот нарылся график количества сайтов.
Уже некоторое понятие дает.
Правда, методика подсчета не приведена.

toptygin-bear

этот график у меня тож есть.. но тут действительно только сайты.
У меня есть предположение, что количество документов растет еще быстрее, так как среднее кол-во документов на сайт тоже постоянно увеличивается. причем как минимум линейно, а я думаю, что скорее всего экспоненциально. Это можно подтвердить тем фактом, что за последние лет 7 очень возрасло количество форумов и личных блогов. но это все равно только слова. статистику бы... * мечтательно * :)

Bjanca

график количества сайтов
Сайты Netcraft считает...это с их сайта графики http://news.netcraft.com/

Bjanca

если невозможно найти, что надо, будем руководствоваться тем, что найдено
можно посчитать:
в 1996 году в сети было 800000 сайтов, и, как ты сказал, 60 миллионов уникальных страниц.
Т.е. по 75 страниц на сайт
в 2006м 100млн сайтов и 25 миллиардов уникальных страниц.
Т.е. по 250 страниц на сайт.
За 10 лет среднее кол-во страниц на сайте выросло с 75 до 250. Предположим, что это линейная зависимость, тогда в конце 2008го среднее число страниц на сайте должно быть порядка 300.
Если, количество сайтов сейчас чуть больше 182млн, то кол-во страниц на них где-то 55 миллиарда
Кстати, полученная цифра согласуется с графиками http://www.worldwidewebsize.com/
Когда считал не подглядывал :)

tinka2302

Да не, найти возможно. Если не сами цифры, то оценки точно.
Просто искать надо активно.
Вот более-менее свежая цифра от гугла по количеству ссылок (то бишь неуникальных документов).
P.S. Кстати, 55 млрд проиндексированных уников похоже на близкую к правде цифру. Выше приведенный сайт дает примерно такую же оценку.

Dim_Ka

На форумлокале легко можно получить не меньше нескольких миллиардов уникальных документов - например через форму поиска. URLы будут отличаться. Неуникальных страниц (с надписью "ничего не найдено" но разными URLами - бесконечное количество. Даже просмотр обычных тем открывает простор для фантазии: 5 постов на страницу, 6, 7... да еще и с разными слоями, а еще есть лайт-версия =) Индексированные гуглем страницы - не больше одной милионной от общего числа документов по такому определению.

tinka2302

Не-не, если формально подходить, то одна миллионная это очень грубая оценка.
Дело в том, что есть множество уникальных URL, которые дают одинаковую страницу - 404 :grin:
Оставить комментарий
Имя или ник:
Комментарий: