Введение в информационный поиск

Лекция 6

Машинное обучение ранжированию

nzhiltsov.github.io/IR-course

Обзор

Постановка задачи
Метод опорных векторов (SVM)
Ranking SVM

Постановка задачи машинного обучения

Пространство X признаков объектов (input space, feature space)
Пространство ответов Y (output space)
Пространство гипотез - класс функций H, h:

X \rightarrow Y

X \to Y

Прецеденты - пары
Тренировочное множество - совокупность пар
Функция потерь (loss function) L - неотрицательная функция, определенная на

(\vec{x_i}, y_i)

(​ x ​ i ​ ​ ​ ⃗ ​ ​, y ​ i ​ ​)

(\vec{x_i},y_i)_{i=1}^n

(​ x ​ i ​ ​ ​ ⃗ ​ ​, y ​ i ​ ​) ​ i = 1 ​ n ​ ​

(\vec{x_i}, \hat{y}_i)

(​ x ​ i ​ ​ ​ ⃗ ​ ​, ​ y ​^​ ​ ​ i ​ ​)

\hat{y}=h(x)

​ y ​^​ ​ = h (x)

Цель: выбрать функцию h из H, минимизирующую L

Общая постановка задачи обучения ранжированию

X - векторы признаков для пары запрос-документ
- TF, TF-IDF, BM25
- длина документа, длина запроса
- статические хар-ки документа
Y - оценка релевантности, данная асессором

Подходы к постановке задачи обучения ранжированию

Поточечный
Попарный
Списочный

Поточечный (Pointwise)

Пространство X - вектора признаков документов
Пространство Y - численная оценка релевантности документа запросу
Оценки релевантности используется как есть
Решается задача регрессии - подбор функции h(x)= f(x) (scoring function) восстановления оценки релевантности
Функция потерь - обычные для задач регрессии
Документы ранжируются по значению функции
Могут применяться любые алгоритмы машинного обучения для задач регрессии

Попарный (Pairwise)

Пространство X - пары векторов признаков для документов (одного и того запроса)
Пространство Y = {+1, -1} - предпочтение одного документа другому
Оценки релевантности преобразуются по схеме:
Строится бинарный классификатор h, принимающий пары векторов
Функция потерь обычно выражается через разность
Примеры - Ranking SVM, GBRank, RankNet, RankBoost, LambdaRank

h(x_u)-h(x_v)

h (x ​ u ​ ​) - h (x ​ v ​ ​)

y_{u,v}=2 \cdot I_{\{l_u > l_v\}}-1

y ​ u, v ​ ​ = 2 \cdot I ​ {l ​ u ​ ​ > l ​ v ​ ​} ​ ​ - 1

Списочный (Listwise)

Пространство X - набор векторов признаков для документов, ассоциированных с запросом
Пространство Y - пространство перестановок документов в наборе
Оценки релевантности преобразуются во множество допустимых перестановок :

\pi_y: \text{for all } u,v \text{ if } l_u > l_v \text{ then } \pi_y(u) < \pi_y(v)

π ​ y ​ ​ : f o r a l l u, v i f l ​ u ​ ​ > l ​ v ​ ​ t h e n π ​ y ​ ​ (u) < π ​ y ​ ​ (v)

\Omega_y

Ω ​ y ​ ​

Строится функция h, выдающая перестановки документов; h обычно выражается через
Функция потерь - апроксимация или верхняя грань основных мер оценивания*
Примеры - SVM-map, AdaRank, ListNet

h(x)=\text{sort} \cdot f(x)

h (x) = s o r t \cdot f (x)

*MAP и NDCG - дискретные и недифференцируемые функции

Ranking SVM

Линейно разделимые классы

Если можно провести гиперплоскость, разделив множества из разных классов => линейный классификатор

Опорные векторы

Зазор классификатора (margin) - расстояние между ближайшей точкой данных и гиперплоскостью (hyperplane)
Хотим максимизировать зазор
Такие ближайшие точки влияют на положение гиперплоскости и называются опорными

Уравнение гиперплоскости

\vec{w}^T\vec{x}+b=0

​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ x ​ ⃗ ​ ​ + b = 0

- вектор нормали
b - параметр сдвига

\vec{w}

​ w ​ ⃗ ​ ​

Линейный классификатор

Принимает решение на основе:

Функциональный зазор для :

Дано тренировочное множество:

(\vec{x_i},y_i)_{i=1}^n

(​ x ​ i ​ ​ ​ ⃗ ​ ​, y ​ i ​ ​) ​ i = 1 ​ n ​ ​

x_i

x ​ i ​ ​

Масштабируя w и b зазор можно сделать сколь угодно большим

Геометрический зазор

Из определения Евклидова расстояния уравнение ближайшей точки на гиперплоскости:

Из уравнения гиперплоскости:

Геометрический зазор - максимальная ширина полосы между опорными векторами двух классов. Инвариантен относительно масштабирования.

\rho

ρ

\rho = 2 \cdot \min_i r_i

ρ = 2 \cdot min ​ i ​ ​ r ​ i ​ ​

Задача оптимизации для метода опорных векторов

Ввиду произвольности масштабирования потребуем:
- =>
- для опорных векторов превращается в равенство
- =>
Цель - максимизировать , подобрав , при условии:
- для всех

\rho = 2 \cdot \min_i r_i = \frac{2}{|\vec{w}|}

ρ = 2 \cdot min ​ i ​ ​ r ​ i ​ ​ = \frac{​ 2 ​ ​}{​ ∣ ​ w ​ ⃗ ​ ​ ∣ ​}

\rho

ρ

(\vec{x_i},y_i)_{i=1}^n:~~y_i(\vec{w}^T\vec{x_i}+b) \geq 1

(​ x ​ i ​ ​ ​ ⃗ ​ ​, y ​ i ​ ​) ​ i = 1 ​ n ​ ​ : y ​ i ​ ​ (​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ x ​ i ​ ​ ​ ⃗ ​ ​ + b) \geq 1

\vec{w}, b

​ w ​ ⃗ ​ ​, b

\vec{w}, b

​ w ​ ⃗ ​ ​, b

Или эквивалентно:

Найти такие что:
- величина достигает минимума
- для всех

\frac{|\vec{w}|}{2}=\frac{1}{2}\vec{w}^T\vec{w}

\frac{​ ∣ ​ w ​ ⃗ ​ ​ ∣ ​ ​}{​ 2 ​} = \frac{​ 1 ​ ​}{​ 2 ​} ​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ w ​ ⃗ ​ ​

(\vec{x_i},y_i)_{i=1}^n:~~y_i(\vec{w}^T\vec{x_i}+b) \geq 1

(​ x ​ i ​ ​ ​ ⃗ ​ ​, y ​ i ​ ​) ​ i = 1 ​ n ​ ​ : y ​ i ​ ​ (​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ x ​ i ​ ​ ​ ⃗ ​ ​ + b) \geq 1

=> минимизация квадратичной функции при линейных ограничениях

Решение двойственной задачи по методу множителей Лагранжа

Вводятся множители Лагранжа для линейных ограничений
Задача переписывается как:
- Найти ,
- максимизирующие
- при условиях:
  - и
Решение такой задачи имеет вид:
- и
Классификатор принимает следующий вид:

\alpha_1, ..., \alpha_n

α ​ 1 ​ ​, . . ., α ​ n ​ ​

\sum_i \alpha_iy_i=0

\sum ​ i ​ ​ α ​ i ​ ​ y ​ i ​ ​ = 0

\alpha_i \geq 0, 1 \leq i \leq n

α ​ i ​ ​ \geq 0, 1 \leq i \leq n

\vec{w}=\sum_i \alpha_i y_i \vec{x}_i

​ w ​ ⃗ ​ ​ = \sum ​ i ​ ​ α ​ i ​ ​ y ​ i ​ ​ ​ x ​ ⃗ ​ ​ ​ i ​ ​

b=y_k - \vec{w}^T \vec{x}_k,~~\vec{x}_k \text{ such that } \alpha_k \neq 0

b = y ​ k ​ ​ - ​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ x ​ ⃗ ​ ​ ​ k ​ ​, ​ x ​ ⃗ ​ ​ ​ k ​ ​ s u c h t h a t α ​ k ​ ​ \neq 0

опорные векторы!

Классификация с мягким зазором

Если множество классов не разделимо линейно, вводятся фиктивные переменные

\xi_i \geq 0

ξ ​ i ​ ​ \geq 0

=> Минимизировать

\frac{1}{2}\vec{w}^T\vec{w} + C \sum_i \xi_i

\frac{​ 1 ​ ​}{​ 2 ​} ​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ w ​ ⃗ ​ ​ + C \sum ​ i ​ ​ ξ ​ i ​ ​

при условии

(\vec{x_i},y_i)_{i=1}^n:~~y_i(\vec{w}^T\vec{x_i}+b) \geq 1 - \xi_i

(​ x ​ i ​ ​ ​ ⃗ ​ ​, y ​ i ​ ​) ​ i = 1 ​ n ​ ​ : y ​ i ​ ​ (​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ x ​ i ​ ​ ​ ⃗ ​ ​ + b) \geq 1 - ξ ​ i ​ ​

C - параметр регуляризации

Ошибки минимизируются за счет уменьшения ширины зазора
При больших C - больший штраф за ошибки и сложнее увеличивать ширину

Ranking SVM

Для пары документов , ассоциированных с поисковым запросом q считаем разность их векторов признаков:
Пусть , то , иначе -1
Тогда получаем классификатор:
Задача оптимизации выглядит так:
- найти и
- минимизируя
- при условии, что для всех выполняется:

d_i, d_j

d ​ i ​ ​, d ​ j ​ ​

l_{d_i} < l_{d_j}

l ​ d ​ i ​ ​ ​ ​ < l ​ d ​ j ​ ​ ​ ​

\frac{1}{2}\vec{w}^T\vec{w} + C \sum_i \xi_i

\frac{​ 1 ​ ​}{​ 2 ​} ​ w ​ ⃗ ​ ​ ​ T ​ ​ ​ w ​ ⃗ ​ ​ + C \sum ​ i ​ ​ ξ ​ i ​ ​

\vec{w}

​ w ​ ⃗ ​ ​

\xi_{i,j} \geq 0

ξ ​ i, j ​ ​ \geq 0

\vec{w}^T\Phi(d_i,d_j,q)\geq 1 - \xi_{i,j}

​ w ​ ⃗ ​ ​ ​ T ​ ​ Φ (d ​ i ​ ​, d ​ j ​ ​, q) \geq 1 - ξ ​ i, j ​ ​

\{\Phi(d_i, d_j, q): l_{d_i} < l_{d_j}\},

{Φ (d ​ i ​ ​, d ​ j ​ ​, q) : l ​ d ​ i ​ ​ ​ ​ < l ​ d ​ j ​ ​ ​ ​},

\Phi(d_i, d_j, q)=+1

Φ (d ​ i ​ ​, d ​ j ​ ​, q) = + 1

SVM-rank

Эффективная реализация Ranking SVM
Доступен на www.cs.cornell.edu/people/tj/svm_light/svm_rank.html
Формат данных - SVM-light

Пример команды для обучения:
- > svm_rank_learn -c 20.0 train.dat model.dat
Пример команды для применения обученной модели:
- > svm_rank_classify test.dat model.dat predictions

train.dat

Инициативы для машинного обучения ранжированию

Интернет-математика Яндекса
- imat2009.yandex.ru
LETOR
- research.microsoft.com/en-us/um/people/letor/
Yahoo! Learning to Rank Challenge,
- http://webscope.sandbox.yahoo.com/catalog.php?datatype=c

IR Course - Lecture 6 - Learning to Rank

By Nikita Zhiltsov

IR Course - Lecture 6 - Learning to Rank

3,467

Nikita Zhiltsov

Research fellow at Kazan Federal University (Russia)

Введение в информационный поиск

Обзор

Постановка задачи машинного обучения

Общая постановка задачи обучения ранжированию

Подходы к постановке задачи обучения ранжированию

Поточечный (Pointwise)

Попарный (Pairwise)

Списочный (Listwise)

Ranking SVM

Линейно разделимые классы

Опорные векторы

Уравнение гиперплоскости

Линейный классификатор

Геометрический зазор

Задача оптимизации для метода опорных векторов

Решение двойственной задачи по методу множителей Лагранжа

Классификация с мягким зазором

Ranking SVM

SVM-rank

Инициативы для машинного обучения ранжированию

IR Course - Lecture 6 - Learning to Rank

More from Nikita Zhiltsov