|
||||||||||||
|
Работа посвящена исследованию и разработке алгоритмов и методов построения программных средств классификации многотемных (multi-label) гипертекстовых документов на основе методов машинного обучения. Задача классификации многотемных документов (multi-label классификации) заключается в определении принадлежности документа к одному или нескольким классам (из предопределённого набора классов) на основании анализа совокупности признаков, характеризующих данный документ. Рассматриваемая задача актуальна и имеет важное значение во многих прикладных проблемах, таких как: анализ и фильтрация Интернет-трафика; информационная безопасность; анализ и рубрикация электронных документов; фильтрация Интернет-спама; тематический поиск и других. На сегодняшний день актуальным является применение методов машинного обучения при решении задачи классификации в перечисленных прикладных проблемах, ввиду способности этих методов адаптироваться к динамике изменения содержимого документов. Для решения поставленной задачи разработан новый метод многотемной (multi-label) классификации на основе попарных сравнений с отсечением нерелевантных классов при помощи пороговой функции. Разработанный метод имеет возможность дообучения и возможность динамического удаления и добавления классов с новыми обучающими примерами. Разработана модель представления гипертекстовых данных, включающая метод учёта гиперссылок на основе анализа самой структуры адресов документов и метод представления на основе выделения частых эпизодов базовых признаков. Экспериментально апробирован метод построения модуля классификации многотемных гипертекстовых документов, основанного на использовании разработанной дообучаемой модели классификации. Приглашаются аспиранты и стажеры программистских кафедр. |
|||||||||||
|