Главная страница « Научно-исследовательский семинар « 2003 « |
||||||||||||
|
||||||||||||
|
Доклад посвящён изложению результатов диссертации автора по актуальной теме поиску информации. Одним из основных результатов работы автора является разработанный метод выделения семантической информации из неструктурированных текстов на естественном языке, использующий лингвистические базы данных и процедуры синтактико-семантического анализа. Предложено представление семантической информации в виде индекса текстового документа для хранения в базе знаний фреймовой структуры. Разработанный метод выделения семантической информации предлагается использовать в информационно-поисковых системах (ИПС) в дополнение к «штатным» методам индексирования. Суть метода заключается в проведении неполного синтаксического анализа предложений определённой структуры на этапе индексирования документа, в результате которого поисковый образ документа (который в координатных ИПС обычно содержит взвешенный лексический состав, а в концептуальных ИПС ещё и перечисление тематик документа) обогащается раскрываемыми в тексте фактами. В отличие от традиционных методов индексирования, которые выявляют основную тематику документа и игнорируют (занижают) вес второстепенных тематик, предлагаемый метод позволяет выявить упоминаемые в тексте факты и предоставить их пользователю при поиске. Предлагаемый метод можно считать шагом к организации фактографического поиска в массиве неструктурированных текстов на естественном языке. Результаты применения метода в ограниченной предметной области показали его работоспособность и эффективность. Приглашаются аспиранты и стажеры программистских кафедр. |
|||||||||||
|