Заседание научно-исследовательского семинара. 10 декабря 2003 г.

Главная страница « Научно-исследовательский семинар « 2003 «

Доклад: «Семантическое индексирование текстов на естественном языке»
Докладчик: Проскурня Максим Олегович, кафедра Алгоритмических языков факультета ВМК МГУ.

Предыдущее заседание « | 10.12.2003 | » Следующее заседание

Доклад посвящён изложению результатов диссертации автора по актуальной теме – поиску информации. Одним из основных результатов работы автора является разработанный метод выделения семантической информации из неструктурированных текстов на естественном языке, использующий лингвистические базы данных и процедуры синтактико-семантического анализа. Предложено представление семантической информации в виде индекса текстового документа для хранения в базе знаний фреймовой структуры.

Разработанный метод выделения семантической информации предлагается использовать в информационно-поисковых системах (ИПС) в дополнение к «штатным» методам индексирования. Суть метода заключается в проведении неполного синтаксического анализа предложений определённой структуры на этапе индексирования документа, в результате которого поисковый образ документа (который в координатных ИПС обычно содержит взвешенный лексический состав, а в концептуальных ИПС ещё и перечисление тематик документа) обогащается раскрываемыми в тексте фактами. В отличие от традиционных методов индексирования, которые выявляют основную тематику документа и игнорируют (занижают) вес второстепенных тематик, предлагаемый метод позволяет выявить упоминаемые в тексте факты и предоставить их пользователю при поиске.

Предлагаемый метод можно считать шагом к организации фактографического поиска в массиве неструктурированных текстов на естественном языке. Результаты применения метода в ограниченной предметной области показали его работоспособность и эффективность.

Приглашаются аспиранты и стажеры программистских кафедр.

Обновлено: 4.10.2005