Главная страница « Информация « IV курс «

Курс «Основы обработки текстов»

Лектор: канд. физ.-мат. наук Турдаков Денис Юрьевич.

Аннотация курса

Новости
Преподаватели и сотрудники
Студенты и аспиранты
Научно-исследовательский семинар
Спецсеминары
Просеминар
Спецкурсы
Проекты
Ссылки
Поиск

Cтраница на сайте ИСП РАН, где публикуются основные сведения по курсу, даются объявления о лекциях и практических заданиях.

Курс «Основы обработки текстов» читается как обязательный кафедральный курс студентам 427 и 428 групп, чтобы дать им знания и практические навыки в области обработки текстовой информации. Студенты с других кафедр могут прослушать и сдать его как специальный курс. В рамках курса проходит знакомство слушателей с основными проблемами компьютерной обработки текстов и с современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.

Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Тематический план курса

  1. Лекция 1: Задачи обработки текстов

  2. Лекция 2: Методы машинного обучения для обработки текстов

  3. Лекция 3: Искусственные нейронные сети для обработки текстов

  4. Лекция 4: Статистические методы в обработки текстов. Поиск словосочетаний

  5. Лекция 5: Векторные представления слов

  6. Лекция 6: Базовые задачи обработки текстов

  7. Лекция 7: Синтаксический анализ

  8. Лекция 8: Лексическая семантика

  9. Лекция 9: Машинный перевод

  10. Лекция 10: Языковые модели на основе нейронных сетей

  11. Лекция 11: Информационный поиск

  12. Лекция 12:Прикладные задачи обработки текстов

  13. Лекция 13: Кластеризация текстов. Тематическое моделирование

  14. Лекция 14: Большие языковые модели

Литература

  1. Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.

  2. Christopher D. Manning and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.

  3. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python. O'Reilly Media, 2009 (http://www.nltk.org/book)

 vmalyshko@cs.msu.ru 

© Кафедра системного программирования ВМК МГУ.

Обновлено: 20.IX.2023