Введение в информационный поиск

Лекция 4

http://nzhiltsov.github.io/IR-course/

Вероятностные модели поиска и языковое моделирование

Обзор

Бинарная модель независимости
BM25
Языковые модели в поисковых задачах

Принцип вероятностного ранжирования

Пусть - случайная индикаторная переменная: =1 если документ d релевантен q, =0 иначе.

R_{d,q}

R ​ d, q ​ ​

Модель бинарных потерь: потеря (loss) - вернуть нерелевантный документ или не вернуть релевантный документ

Теорема. Принцип вероятностного ранжирования оптимален в смысле байесовского риска - мат. ожидания для модели бинарных потерь

=> зная истинное распределение , можно оптимально ранжировать по , но оно неизвестно, можем только оценивать

P(R|d,q)

P (R ∣ d, q)

P(R=1|d,q)

P (R = 1 ∣ d, q)

Бинарная модель независимости

Представление

Документы и запросы представляются как бинарные векторы в пространстве терминов (векторы-индцидентности)
Предположение ("наивное") о независимости появления терминов в документе (запросе)
=> модель - n-мерное распределение Бернулли
Хотим оценить через
- Предположение - релевантность одного документа не зависит от релевантности других

\vec{x}=(x_1, x_2 ..., x_n), x_i \in \{0,1\}

​ x ​ ⃗ ​ ​ = (x ​ 1 ​ ​, x ​ 2 ​ ​ . . ., x ​ n ​ ​), x ​ i ​ ​ \in {0, 1}

P(R | \vec{x}, \vec{q})

P (R ∣ ​ x ​ ⃗ ​ ​, ​ q ​ ⃗ ​ ​)

P(R|d,q)

P (R ∣ d, q)

Оценивание

Применим теорему Байеса:

P(A|B)=\frac{P(B|A)P(A)}{P(B)}

P (A ∣ B) = \frac{​ P ( B ∣ A ) P ( A ) ​ ​}{​ P ( B ) ​}

P(A,B)=P(A|B)P(B)

P (A, B) = P (A ∣ B) P (B)

P(B)=P(A,B)+P(\overline{A},B)

P (B) = P (A, B) + P (​ A ​ ​ ​, B)

- правдоподобие документа (релевантного/нерелевантного)
- априорные вероятности найти релевантный/нерелевантный документ для q => константа для документов

P(\vec{x} | R, \vec{q})

P (​ x ​ ⃗ ​ ​ ∣ R, ​ q ​ ⃗ ​ ​)

P(R|q)

P (R ∣ q)

Оценивание

Вместо оценивания для ранжирования достаточно оценить шансы (odds):

P(R | \vec{x}, \vec{q})

P (R ∣ ​ x ​ ⃗ ​ ​, ​ q ​ ⃗ ​ ​)

Отношение - константа для различных документов
- Обозначим как
=> оцениванием только второй множитель

P(R|q)

P (R ∣ q)

\vec{x}

​ x ​ ⃗ ​ ​

O(R|\vec{q})

O (R ∣ ​ q ​ ⃗ ​ ​)

Оценивание для терминов

Ввиду "наивного" предположения о независимости появления терминов:

или после перегруппировки множителей:

- вероятность появления термина t в документе, релевантном запросу q

- вероятность появления термина t в нерелевантном документе

Вывод функции ранжирования

Предположим, что термин не из запроса с одинаковой вероятностью встретится как релевантном, так и нерелевантном документе, т.е. для

q_t =1: p_t = u_t

q ​ t ​ ​ = 1 : p ​ t ​ ​ = u ​ t ​ ​

Второе произведение вычисляется только по терминам из запроса и константно для документов
=> для ранжирования достаточно вычислять только первое произведение
Логарифмируя, получаем финальную формулу RSV (retrieval status value):

\rightarrow

\to

Значение документа по запросу

Отношение 2х шансов: шанс термина запроса появиться в (не)релевантном документе

Оценки по методу максимального правдоподобия

Со сглаживанием:

Оценки на практике

Статистики для нерелевантных результатов аппроксимируются статистиками на всей коллекции
- => (IDF!)
Статистики для релевантных можно оценивать следующим образом:
- положить для всех терминов вероятность равную константе, напр.,
- с помощью оцененных результатов (relevance feedback) или высокоотранжированных результатов (pseudo relevance feedback)

u_t=\frac{df_t}{N}

u ​ t ​ ​ = \frac{​ d f ​ t ​ ​ ​ ​}{​ N ​}

p_t=0.5

p ​ t ​ ​ = 0.5

Итеративное оценивание с помощью обратной связи по релевантности

Получаем исходные оценки для
Ранжируем документы
Собираем оценки релевантности (напр., на основе кликов пользователя) для некого подмножества V и делим V на множества:

4. Оцениваем по методу максимального правдоподобия и сглаживаем по предыдущей оценке:

=>
- эффективное число наблюдений из бета-распределения => число оцененных документов)

5. Возвращаемся к шагу 2, пока пользователь не закончит поиск.

p_t, u_t

p ​ t ​ ​, u ​ t ​ ​

VR=\{d \in V, R_{d,q}=1\}, VNR=\{d \in V, R_{d,q}=0\}

V R = {d \in V, R ​ d, q ​ ​ = 1}, V N R = {d \in V, R ​ d, q ​ ​ = 0}

\kappa

κ

Итеративное оценивание с помощью обратной связи по псевдорелевантности

Получаем исходные оценки для
Ранжируем документы
Формируется подмножество высокоотранжированных документов V.

4. Уточняем оценки (ненайденные документы считаются нерелевантными):

5. Возвращаемся к шагу 2, пока ранжирование не меняется.

p_t, u_t

p ​ t ​ ​, u ​ t ​ ​

BM25

S. Robertson, S. Walker. Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval (1994)

Элитность

Элитность - случайная бинарная переменная (ненаблюдаемая), показывающая то, что данный документ описывает некоторый концепт, представленный термином
Частота термина в документе зависит только от элитности
Релевантность зависит от элитности документа

Частота термина в документа как распределение Пуассона

Частота термина в документе моделируется пуассоновским распределением:
- =>
- k - в данном случае, фиксированная длина документа
Рассматриваются отдельные модели для элитных и неэлитных документов
Взвешивание на основе смеси двух распределений

p(k)=\frac{\lambda^k}{k!}e^{-\lambda}

p (k) = \frac{​ λ ​ k ​ ​ ​ ​}{​ k ! ​} e ​ - λ ​ ​

Свойства весов на основе смеси двух пуассоновских распределений

p'=P(E=1|R,q) - вероятность того, что релевантный документ d элитен для термина t
q'=P(E=1| not R, q) - вероятность того, что нерелевантный документ d элитен для t
- средние значения tf для элитных и неэлитных документов
w=0, когда tf=0
w монотонно растет по tf и имеет асимптотический максимум
w линейна по tf, когда элитность эквивалентна релевантности

\lambda, \mu

λ, μ

Приближение смеси двух пуассоновских распределений

\frac{tf}{k_1 + tf}

\frac{​ t f ​ ​}{​ k ​ 1 ​ ​ + t f ​}

Заменяем на кривую со схожими свойствами:

Нелинейная функция по tf

Учет частоты термина в документе и длины документа

- параметр настройки частоты термина, обычно [1.2, 2]
b - параметр нормировки по длине, обычно b=0.75
- длина документа и средняя документа в коллекции

k_1

k ​ 1 ​ ​

L_d, L_{ave}

L ​ d ​ ​, L ​ a v e ​ ​

Формула ранжирования BM25

Для запросов: нет нормализации по длине
- параметр настройки частоты термина в запросе
Все параметры модели можно оптимизировать на коллекциях с оценками релевантности
Можно встроить в схему обратной релевантности, заменив IDF на соотв. формулу для
BM25 - универсальная и широко применяемая ранжирующая функция

k_3

k ​ 3 ​ ​

u_t

u ​ t ​ ​

Языковые модели информационного поиска

Мотивация

Попытка моделировать процесс формулирования поискового запроса через содержание релевантных документов
- аналогия с теорией формальных языков
Вместо оценки напрямую, оценивается вероятность порождения запроса q из некоторой вероятностной языковой модели
- модель правдоподобия запроса
Это позволяет работать даже с теми документами, которые не содержат термины из запроса

P(R|d,q)

P (R ∣ d, q)

P(q|M_d)

P (q ∣ M ​ d ​ ​)

Язык автомата

Конечный автомат, генерирующий строки из некоторого алфавита

Язык автомата - полная совокупность строк, которые он может сгенерировать

Языковая модель

Языковая модель - функция, приписывающая каждому термину из словаря некоторую вероятность (мультиномиальное распределение)

Можно вычислить вероятность порождения каждой строки:

Вводится вероятность остановки

\uparrow

↑

Сравнение моделей

При ранжировании документов вероятности остановки обычно игнорируются
Модели сравниваются с помощью отношения правдоподобия (likelihood ratio)

Типы языковых моделей

По правилу умножения вероятностей:
- =>
- слишком разреженные данные для оценивания
Униграммная языковая модель
- Предположение о независимости появления терминов
Биграммная
- Зависимость только от предыдущего термина

Применение языковых моделей для поиска

Модель правдоподобия запроса (query likelihood model)
Для каждого документа d создается своя языковая модель
Цель - ранжировать результаты по
- По теореме Байеса:
- - константа для всех документов d
- можно считать равномерным и отбросить
- => оцениваем - вероятность сгенерировать запрос из языковой модели данного документа

M_d

M ​ d ​ ​

P(d|q)

P (d ∣ q)

P(q)

P (q)

P(d)

P (d)

P(q|d)

P (q ∣ d)

P(q|M_d)

P (q ∣ M ​ d ​ ​)

Оценка по методу максимального правдоподобия в униграммной модели

- частота термина t в документе d
- длина документа d (в лексемах)
Проблема нулевых частот? Термины из запроса, которых нет в документе
=> сглаживание

tf_{t,d}

t f ​ t, d ​ ​

L_d

L ​ d ​ ​

Сглаживание Елинека-Мерсера

Линейная интерполяция оценок на основе языковых моделей документа и коллекции
- параметр сглаживания

0 \leq \lambda \leq 1

0 \leq λ \leq 1

см. практическое задание 7

Сглаживание Дирихле

Распределение Дирихле - сопряженное априорное распределение мультиномиальному распределению
- параметр сглаживания (Dirichlet prior) обычно выбирается равным средней длине документа

\alpha

α

Расширения языковых моделей

а) Модель правдоподобия запроса (query likelihood)

b) Модель правдоподобия документа

c) Модель сравнения, по KL-дивергенции:

IR Course - Lecture 4 - Probabilistic IR and Language Models

By Nikita Zhiltsov

IR Course - Lecture 4 - Probabilistic IR and Language Models

4,156

Nikita Zhiltsov

Research fellow at Kazan Federal University (Russia)

Введение в информационный поиск

Обзор

Принцип вероятностного ранжирования

Бинарная модель независимости

Представление

Оценивание

Оценивание

Оценивание для терминов

Вывод функции ранжирования

Значение документа по запросу

Оценки по методу максимального правдоподобия

Оценки на практике

Итеративное оценивание с помощью обратной связи по релевантности

Итеративное оценивание с помощью обратной связи по псевдорелевантности

BM25

Элитность

Частота термина в документа как распределение Пуассона

Свойства весов на основе смеси двух пуассоновских распределений

Приближение смеси двух пуассоновских распределений

Учет частоты термина в документе и длины документа

Формула ранжирования BM25

Языковые модели информационного поиска

Мотивация

Язык автомата

Языковая модель

Сравнение моделей

Типы языковых моделей

Применение языковых моделей для поиска

Оценка по методу максимального правдоподобия в униграммной модели

Сглаживание Елинека-Мерсера

Сглаживание Дирихле

Расширения языковых моделей

IR Course - Lecture 4 - Probabilistic IR and Language Models

More from Nikita Zhiltsov