Нужна информация по алгоритмам сравнения текстов

starmaster

субж

disepa

Насколько я знаю ...
Пусть x - документ, который хотим сравнить с документом y (x "есть" у нас, y только что скачали)
Есть два подхода:
1) сравнение y с полным вариантом документа x
2) сравнение y с некоторой подписью документа x (или просто слегка измененным)
Первый не интересно: как сравнить два слова описано в книге для ослов.
Второй: наиболее распространенный (и единственный о котором я слышал) - разбить текст x
на куски, для каждого куска найти его подпись (CRC,MD5) --- это и будет модифицированный
текст x (а оригинал можно стереть). Ну а далее более менее все понятно: надо искать такие же куски (с такой подписью)
в документе y.
Преимущество: мало места занимает.
Как называется последний подход не помню, но если сильно надо, то могу поискать.

disepa

Более подробно есть на сайте www.iworld.ru
в архивах последний журнал (поискове системы (или машины) ).
Там вроде и ссылки есть по этому поводу.

starmaster

А как там с обработкой ошибок (если документы одинаковые, но в одном из них есть ошибки)?

disepa

Почитай, узнаешь.
А вообще, все зависит от того, какого размера будет подпись (документа x).
Если ты мелко порежешь теуст, то неплохо определшь, иначе полная пурга.
Лучше почитай, там вроде нормально напимано. Если что потом могу дать
свой курсовик за 3-й курс.

starmaster

Спасибо, почитаю.
Оставить комментарий
Имя или ник:
Комментарий: