Введение в информационный поиск

Лекция 7

Ранжирование структурированных документов

Обзор

  • BM25F
  • Смесь языковых моделей (MLM)
  • PRMS
  • FSDM

Примеры структурированных документов

  • email
  • документы MS Office с заголовками
  • корпоративные документы
  • посты в социальных сетях
  • anchor texts в веб-поиске
  • knowledge graphs

​...

Структурированные документы

Структурированные документы

Примеры запросов

Matching по полям

Мотивация

  • Важность встречаемости терминов может зависеть:
    • от полей документа
    • от типа запроса
  • => задавать разные веса в зависимости от поля

Возможные подходы

  • Машинное обучение ранжированию*:
    • Характеристики учитывают структуру документа
    • Необходимы данные для обучения
  • Ранжирующие функции с весами по полям документа
    • BM25F
    • MLM
    • PRMS
    • FSDM

* см. предыдущую лекцию

BM25F

S. Robertson et al. Simple BM25 Extension to Multiple Weighted Fields (2004)

Расширение BM25:

Как встроить информацию о статистике встречаемости терминов из запроса?

BM25 для полей: неверный путь

S. Robertson et al. Simple BM25 Extension to Multiple Weighted Fields (2004)

Линейная комбинация BM25 значений по полям

Проблемы:

  • нарушается желаемая зависимость tf
  • необходимость оптимизировать параметры k1, b для всех полей

BM25F

Линейная комбинация tf по полям!

  • Сохраняется правильная зависимость
  • Параметры: k1, b и веса полей

Смесь языковых моделей 

Модель правдоподобия запроса (LM)*:

* см. лекцию 4

** P. Ogilvie, J. Callan. Combining document representations for known item search (2003)

Mixture of LMs (MLM)**:

\sum_j w_j = 1
jwj=1\sum_j w_j = 1

Веса полей w необходимо задавать вручную или оптимизировать

PRMS

Аналогично MLM, только w задаются динамически:

 

J. Kim, X. Xue, B. Croft. A Probabilistic Retrieval Model for Semistructured Data (2009)

по апостериорной вероятности поля для данного термина из запроса:

Мотивация

  • Известно, что статистика биграм из запроса полезна для ранжирования
  • Есть модели, учитывающие зависимые термины:
    • Positional language model (PLM)
    • Sequential dependence model (SDM)
  • Необходимо встроить информацию о структуре в модель с term dependencies

SDM

Появление терминов в запросе рассматривается в модели марковских случайных полей

T - Terms (unigrams)

U - Unordered bigrams

O - Ordered bigrams

FSDM

  • Slides TBA
  • См. статью N. Zhiltsov, A. Kotov, F. Nikolaev "Fielded Sequential Dependence Model for Ad-Hoc Entity Retrieval in the Web of Data" (2015)

IR Course - Lecture 7 - Structured Document Retrieval

By Nikita Zhiltsov

IR Course - Lecture 7 - Structured Document Retrieval

  • 2,279