Система фактографического анализа

Обилие разнородной не структурированной информации делает автоматическую семантическую рубрикацию [классификацию] текстов на естественном языке одной из важнейших задач современных интернет-технологий.

Системы фактографического анализа применяются для задач автоматического извлечения, классификации и статистического учета упоминаемых в текстах на естественном языке сущностей и связанных с ними фактов, таких, например, как события связанные с личностями (даты рождения или смерти, высказывания, должности и места работы, подписываемые документы, перемещения в пространстве, задержания и обвинения, и т.д.), или компаниями (даты основания, банкротства, выхода на биржу, изменения котировок акций, слияния и поглощения, заключения альянсов и судебные разбирательства, и т.д.).

Ядро фактографического анализа представляет собой интерпретатор декларативного проблемно-ориентированного языка программирования [L], предназначенного для извлечения синтактико-морфологических последовательностей из текстов на естественном языке.

Разработка шаблонов извлечения на этом языке не требует специальных навыков программирования, и, после краткого введения в базовые концепции и синтаксис, доступна широкому кругу лингвистов, не обладающих знаниями и опытом в разработке программного обеспечения.

Инкрементная обработка потока текстовых данных реализуется в фактографическом анализе через этапы извлечения соответствий всем заданным шаблонам, классификации и нормализации извлеченных фактов на основе их типов, группировки по сущностям и занесения извлеченной информации в базу данных.

Разработчикам фактографического анализа предоставляет удобные и гибкие механизмы создания и расширения специализированных для конкретных задач систем извлечения.