Биграммы, пассажи

1086

Биграмма – пара соседних слов, интерпретируемая ПС как словарный термин.

Применяется:

  • борьба с текстовым спамом;
  • ранжирование документов;
  • статистика устойчивых словосочетаний.

Пассаж – последовательность слов, ограниченная либо заданным числом слов/символов, либо знаками препинания, либо тегами HTML.

Применяется:

  • поиск информации;
  • определение уникальности;
  • формирования сниппетов.