[поисковые алгоритмы] выделение полезной информации

elenakalash

Есть научно-популярное издание
У него есть сайт, где выкладываются номера этого издания.
Нужен алгоритм, который бы мог вычленить полезную информацию , т.е. , на основе сравнения документов (статей мог бы удалить безполезную информацию (навигацию, рекламу, служебную инфу и т.д.)
Может быть кто знает статьи или где можно посмотреть необходимую информацию по этому поводу?

lodanap

по размеру документа?

zuzaka

Я не уверен, но попробуй поискать здесь:
http://links-guide.ru/sprachen/linguistik/korpusnaja--lingvistika.html

elenakalash

например вот этот жкрнал www.demoscope.ru
вот например в этой статье http://demoscope.ru/weekly/2004/0161/barom02.php надо вычленить саму ее

ramses1971

Никакие алгоритмы тебе не нужны. Если там все статьи оформлены похожим образом, хватит одного регэкспа.

elenakalash

ну так , а как мне этот регэксп создать, ведь это будет применяться не только к этому сайту

ramses1971

Ааа, так ты хочешь из всего инета полезную информацию вытаскивать
На диссер тема тянет

zuzaka

Вытягивать инфу из инета - это гораздо больше, чем на диссер. Целая наука - корпусная лингвистика - которой занимаются сотни лабораторий и институтов уже как минимум 15 лет пытается найти способ, как бы воспользоваться крупнейшим естественным корпусом текстов - Интернетом. Вроде бы, несмотря на ряд хороших наработок, законченное решение пока не найдено.
Оставить комментарий
Имя или ник:
Комментарий: