Задача о идентификации текста специального вида.

Tfrn

Есть огромная подробная база данных лекарственных препаратов, приведенная к общему стандарту. Будем считать, что ошибок в ней нет (или почти нет).
И появляется еще большой список лекарственных препаратов, но данные могут быть записаны уже не в стандартной форме.
Вопрос: Как определить какие из "новых" лекарств на самом деле старые и уже есть в базе.
Понятно, что задача слишком общая. Но есть ли решения аналогичных задач или статьи на эту тему. Тут дело не в программировании, а в применяемых математических методах.

disepa

А поматематичней нельзя поставить задачу, а то как-то странно она звучит и не особо понятно.
Хотя, как мне кажется, статей на подобную тему мало.

zuzaka

Ключевое слово - Corpus Linguistics

mboroday

Переведи новую базу в стандартный формат, а потом работай с двумя базами, как со множествани (складывай, вычитай и т.п.)
например: пусть есть стандартная операция, которая присваивает лекарственному препарату некоторый индивидуальный код. Проводишь эту операцию над каждой базой. Получаешь набор кодов для каждой. Из первого множества кодов, соответствующее первой базе, вычитаешь второе множество кодов, соответствующее второй базе. Узнаем какие препараты из второй базы данных не попали в первую.
Оставить комментарий
Имя или ник:
Комментарий: