Лекция 7
Ранжирование структурированных документов
...
* см. предыдущую лекцию
S. Robertson et al. Simple BM25 Extension to Multiple Weighted Fields (2004)
Расширение BM25:
Как встроить информацию о статистике встречаемости терминов из запроса?
S. Robertson et al. Simple BM25 Extension to Multiple Weighted Fields (2004)
Линейная комбинация BM25 значений по полям
Проблемы:
Линейная комбинация tf по полям!
Модель правдоподобия запроса (LM)*:
* см. лекцию 4
** P. Ogilvie, J. Callan. Combining document representations for known item search (2003)
Mixture of LMs (MLM)**:
Веса полей w необходимо задавать вручную или оптимизировать
Аналогично MLM, только w задаются динамически:
J. Kim, X. Xue, B. Croft. A Probabilistic Retrieval Model for Semistructured Data (2009)
по апостериорной вероятности поля для данного термина из запроса:
Появление терминов в запросе рассматривается в модели марковских случайных полей
T - Terms (unigrams)
U - Unordered bigrams
O - Ordered bigrams