Введение в информационный поиск

Лекция 4

Вероятностные модели поиска и языковое моделирование

Обзор

  • Бинарная модель независимости
  • BM25
  • Языковые модели в поисковых задачах

Принцип вероятностного ранжирования

Пусть        - случайная индикаторная переменная: =1 если документ d релевантен q, =0 иначе.

R_{d,q}
Rd,q

Модель бинарных потерь: потеря (loss) - вернуть нерелевантный документ или не вернуть релевантный документ

Теорема. Принцип вероятностного ранжирования оптимален в смысле байесовского риска - мат. ожидания для модели бинарных потерь

=> зная истинное распределение               , можно оптимально ранжировать по                    , но оно неизвестно, можем только оценивать

P(R|d,q)
P(Rd,q)
P(R=1|d,q)
P(R=1d,q)

Бинарная модель независимости

Представление

  • Документы и запросы представляются как бинарные векторы в пространстве терминов (векторы-индцидентности)
    •  
  • Предположение ("наивное") о независимости появления терминов в документе (запросе)
  • => модель - n-мерное распределение Бернулли
  • Хотим оценить                через 
    • Предположение - релевантность одного документа не зависит от релевантности других
\vec{x}=(x_1, x_2 ..., x_n), x_i \in \{0,1\}
x=(x1,x2...,xn),xi{0,1}
P(R | \vec{x}, \vec{q})
P(Rx,q)
P(R|d,q)
P(Rd,q)

Оценивание

Применим теорему Байеса:

P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(AB)=P(B)P(BA)P(A)
P(A,B)=P(A|B)P(B)
P(A,B)=P(AB)P(B)
P(B)=P(A,B)+P(\overline{A},B)
P(B)=P(A,B)+P(A,B)
  •               - правдоподобие документа (релевантного/нерелевантного)
  •            - априорные вероятности найти релевантный/нерелевантный документ для q => константа для документов
P(\vec{x} | R, \vec{q})
P(xR,q)
P(R|q)
P(Rq)

Оценивание

Вместо оценивания               для ранжирования достаточно оценить шансы (odds):

P(R | \vec{x}, \vec{q})
P(Rx,q)
  • Отношение            - константа для различных документов
    • Обозначим как 
  • => оцениванием только второй множитель
P(R|q)
P(Rq)
\vec{x}
x
O(R|\vec{q})
O(Rq)

 Оценивание для терминов

Ввиду "наивного" предположения о независимости появления терминов:

или после перегруппировки множителей:

 - вероятность появления термина t в документе, релевантном запросу q

 - вероятность появления термина t в нерелевантном документе

Вывод функции ранжирования

Предположим, что термин не из запроса с одинаковой вероятностью встретится как релевантном, так и нерелевантном документе, т.е. для 

q_t =1: p_t = u_t
qt=1:pt=ut
  • Второе произведение вычисляется только по терминам из запроса и константно для документов
  • => для ранжирования достаточно вычислять только первое произведение
  • Логарифмируя, получаем финальную формулу RSV (retrieval status value):
\rightarrow

Значение документа по запросу

Отношение 2х шансов: шанс термина запроса появиться в (не)релевантном документе

Оценки по методу максимального правдоподобия

Со сглаживанием:

Оценки на практике

  • Статистики для нерелевантных результатов аппроксимируются статистиками на всей коллекции
    •  
    • =>                                                            (IDF!)
  • Статистики для релевантных можно оценивать следующим образом:
    • положить для всех терминов вероятность равную константе, напр., 
    • с помощью оцененных результатов (relevance feedback) или высокоотранжированных результатов (pseudo relevance feedback)
u_t=\frac{df_t}{N}
ut=Ndft
p_t=0.5
pt=0.5

Итеративное оценивание с помощью обратной связи по релевантности

  1. Получаем исходные оценки для 
  2. Ранжируем документы
  3. Собираем оценки релевантности (напр., на основе кликов пользователя) для некого подмножества V и делим V на множества: 

 

4. Оцениваем по методу максимального правдоподобия и сглаживаем по предыдущей оценке:

  • =>
  •    - эффективное число наблюдений из бета-распределения => число оцененных документов)

5. Возвращаемся к шагу 2, пока пользователь не закончит поиск.

p_t, u_t
pt,ut
VR=\{d \in V, R_{d,q}=1\}, VNR=\{d \in V, R_{d,q}=0\}
VR={dV,Rd,q=1},VNR={dV,Rd,q=0}
\kappa
κ

Итеративное оценивание с помощью обратной связи по псевдорелевантности

  1. Получаем исходные оценки для 
  2. Ранжируем документы
  3. Формируется подмножество высокоотранжированных документов V.

4. Уточняем оценки (ненайденные документы считаются нерелевантными):

 

5. Возвращаемся к шагу 2, пока ранжирование не меняется.

p_t, u_t
pt,ut

BM25

S. Robertson, S. Walker. Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval (1994)

Элитность

  • Элитность - случайная бинарная переменная (ненаблюдаемая), показывающая то, что данный документ описывает некоторый концепт, представленный термином
  • Частота термина в документе зависит только от элитности
  • Релевантность зависит от элитности документа

Частота термина в документа как распределение Пуассона

  • Частота термина в документе моделируется пуассоновским распределением:
    • =>
    • k - в данном случае, фиксированная длина документа
  • Рассматриваются отдельные модели для элитных и неэлитных документов
  • Взвешивание на основе смеси двух распределений
p(k)=\frac{\lambda^k}{k!}e^{-\lambda}
p(k)=k!λkeλ

Свойства весов на основе смеси двух пуассоновских распределений

  • p'=P(E=1|R,q) - вероятность того, что релевантный документ d элитен для термина t
  • q'=P(E=1| not R, q) - вероятность того, что нерелевантный документ d элитен для t
  •        - средние значения tf для элитных и неэлитных документов
  • w=0, когда tf=0
  • w монотонно растет по tf и имеет асимптотический максимум
  • w линейна по tf, когда элитность эквивалентна релевантности
\lambda, \mu
λ,μ

Приближение смеси двух пуассоновских распределений

\frac{tf}{k_1 + tf}
k1+tftf

Заменяем на кривую со схожими свойствами:

Нелинейная функция по tf

Учет частоты термина в документе и длины документа

  •    - параметр настройки частоты термина, обычно [1.2, 2]
  • b - параметр нормировки по длине, обычно b=0.75
  •             - длина документа и средняя документа в коллекции
k_1
k1
L_d, L_{ave}
Ld,Lave

Формула ранжирования BM25

  • Для запросов: нет нормализации по длине 
  •     - параметр настройки частоты термина в запросе
  • Все параметры модели можно оптимизировать на коллекциях с оценками релевантности
  • Можно встроить в схему обратной релевантности, заменив IDF на соотв. формулу для 
  • BM25 - универсальная и широко применяемая ранжирующая функция 
k_3
k3
u_t
ut

Языковые модели информационного поиска

Мотивация

  • Попытка моделировать процесс формулирования поискового запроса через содержание релевантных документов
    • аналогия с теорией формальных языков
  • Вместо оценки               напрямую, оценивается вероятность порождения запроса q из некоторой вероятностной языковой модели   
    • модель правдоподобия запроса
  • Это позволяет работать даже с теми документами, которые не содержат термины из запроса
P(R|d,q)
P(Rd,q)
P(q|M_d)
P(qMd)

Язык автомата

Конечный автомат, генерирующий строки из некоторого алфавита

Язык автомата - полная совокупность строк, которые он может сгенерировать

Языковая модель

Языковая модель - функция, приписывающая каждому термину из словаря некоторую вероятность (мультиномиальное распределение)

Можно вычислить вероятность порождения каждой строки:

Вводится вероятность остановки 

\uparrow

Сравнение моделей

  • При ранжировании документов вероятности остановки обычно игнорируются
  • Модели сравниваются с помощью отношения правдоподобия (likelihood ratio)

Типы языковых моделей

  • По правилу умножения вероятностей:
    • =>
    • слишком разреженные данные для оценивания
  • Униграммная языковая модель
    • Предположение о независимости появления терминов
    •  
  • Биграммная
    • Зависимость только от предыдущего термина
    •  

Применение языковых моделей для поиска

  •  Модель правдоподобия запроса (query likelihood model)
  • Для каждого документа d создается своя языковая модель 
  • Цель - ранжировать результаты по 
    • По теореме Байеса:
    •        - константа для всех документов d
    •        можно считать равномерным и отбросить
    • => оцениваем           - вероятность сгенерировать запрос из языковой модели данного документа
M_d
Md
P(d|q)
P(dq)
P(q)
P(q)
P(d)
P(d)
P(q|d)
P(qd)
P(q|M_d)
P(qMd)

Оценка по методу максимального правдоподобия в униграммной модели

  •      - частота термина t в документе d
  •      - длина документа d (в лексемах)
  • Проблема нулевых частот? Термины из запроса, которых нет в документе
  • => сглаживание
tf_{t,d}
tft,d
L_d
Ld

Сглаживание Елинека-Мерсера

  • Линейная интерполяция оценок на основе языковых моделей документа и коллекции
  •                - параметр сглаживания
0 \leq \lambda \leq 1
0λ1

см. практическое задание 7

Сглаживание Дирихле

  • Распределение Дирихле - сопряженное априорное распределение мультиномиальному распределению 
  •     - параметр сглаживания (Dirichlet prior) обычно выбирается равным средней длине документа 
\alpha
α

Расширения языковых моделей

а) Модель правдоподобия запроса (query likelihood)

b) Модель правдоподобия документа

c) Модель сравнения, по KL-дивергенции:

IR Course - Lecture 4 - Probabilistic IR and Language Models

By Nikita Zhiltsov

IR Course - Lecture 4 - Probabilistic IR and Language Models

  • 3,883