Современные методы и средства построения систем информационного поиска. Лекция 11. Поиск дубликатов в Web. Романенко Алексей

709

Романенко Алексей рассказывает о поиске дубликатов в Web-е. Говорит о различных приложениях и знакомит с Shingling, Minhashing и Locality-Sensitive Hashing.

  1. Сравнение документов
  2. Пример: точные дубликаты
  3. Пример: версия для печати
  4. Пример: неточные дубликаты
  5. Пример: поиск похожих документов
  6. Три основных этапа для определения похожих документов
  7. Основная схема
  8. Шинглы
  9. Основная модель данных
  10. Похожесть колонок
  11. План: поиск похожих колонов
  12. Предупреждения
  13. Сигнатуры
  14. Minhashing
  15. Реализация
  16. Отбор кандидатов из сигнатур Minhash
  17. Locality-Sensitive Hashing
  18. Распределение по корзинам
  19. Поиск дубликатов в web