Современные методы и средства построения систем информационного поиска. Лекция 3. Основы обработки текста. Андреев Игорь

611

Андреев Игорь рассказывает об основах обработки текста.

  1. Критерии документа, кодировки
  2. Уровни лингвистического анализа
  3. Токены и термины
  4. Детекция языка: графематический, N-граммный и лексический подходы
  5. Нормализация
  6. Проблемы токенизации
  7. Наличие и отсутствие пробелов
  8. Китайский, японский, арабский языки
  9. Ударение и диакритика
  10. Классы эквивалентности
  11. Понижение регистра
  12. Стоп-слова
  13. Лемматизация
  14. Стемминг
  15. Предиктор
  16. Виды языков
  17. Статистическое снятие омонимии
  18. Разбиение текста на предложения
  19. Расширение поискового запроса