Введение в информационный поиск

Лекция 2

Алгоритмы построения и сжатия индекса

http://nzhiltsov.github.io/IR-course/

Алгоритмы построения индекса

Обзор

Факты об аппаратном обеспечении
BSBI
SPIMI
MapReduce

Важнейшие показатели отклика

http://www.eecs.berkeley.edu/~rcs/research/interactive_latency.html

Основные факты о "железе"

Чтение в RAM значительно быстрее, чем с диска (SSD/HDD) => необходимость кэширования
При переносе данных из диска в RAM существенна задержка позиционирования (SSD - 16 мкс, HDD - 4 мс) => считывание/запись поблочно
CPU не задействован при переносе данных => эффективное* сжатие снижает время чтения

*с т.зр. декомпрессии

Indexing Revisited

Основная операция - сортировка значений termID-docID.

В реальности имеем карту term -> termID

Типичная тестовая коллекция

Новостная коллекция Reuters-RCV1
около 800 тыс. документов
100 млн. лексем в коллекции
реальные новостные коллекции - больше на несколько порядков

Сколько потребуется памяти для хранения списка termId-docID?

Типичная тестовая коллекция

Новостная коллекция Reuters-RCV1
около 800 тыс. документов
100 млн. уникальных лексем
реальные новостные коллекции - больше на несколько порядков

Если termId-docID храним как int (4Б) =>

10^8*8 \text{ B} = 0.8 \text{ GB}

1 0 ​ 8 ​ ​ * 8 B = 0.8 G B

Блочное индексирование, основанное на сортировке

Сложность алгоритма

BSBI-Invert по числу лексем T?

BSBI-Invert = сортировка

termID-docID + группировка по termID

\Theta(T \log T)

Θ (T lo g T)

Блочное индексирование, основанное на сортировке

Посчитать время работы BSBI для Reuters-RCV1

Проблема

Карта term -> termID не помещается в RAM

Проблема

Карта term -> termID не помещается в RAM

Храним свой словарь для каждого блока

Однопроходное индексирование в ОП

Сложность алгоритма по числу лексем T:

\Theta (T)

Θ (T)

Распределенное индексирование с MapReduce

Алгоритмы сжатия индекса

Обзор

Статистические характеристики словаря
Сжатие словаря
Сжатие списка словопозиций

Закон Хипса

Оценка размера словаря по размеру коллекции

M=kT^b

M = k T ​ b ​ ​

M - размер словаря (количество уникальных терминов)
T - количество лексем в коллекции
k,b - параметры:

30 \leq k \leq 100

30 \leq k \leq 100

b \approx 0.5

b \approx 0.5

Зависимость линейна по log-log шкале

Закон Хипса для Reuters RCV-1

\log_{10} M = 0.49*\log_{10} T+1.64

lo g ​ 10 ​ ​ M = 0.49 * lo g ​ 10 ​ ​ T + 1.64

Зависимость, восстановленная по методу наименьших квадратов (пунктир):

k=10^{1.64}=44

k = 1 0 ​ 1.64 ​ ​ = 44

b=0.49

b = 0.49

Т.о. с ростом коллекции размера словаря растет, и для больших коллекций он весьма велик => необходимость сжатия словаря

Закон Ципфа

Распределение частоты терминов в коллекции

cf_i = c*i^{-1}, \log cf_i = \log c - \log i

c f ​ i ​ ​ = c * i ​ - 1 ​ ​, lo g c f ​ i ​ ​ = lo g c - lo g i

- частота термина в коллекции

- ранг термина по частоте термина в коллекции

cf_i

c f ​ i ​ ​

i

Зависимость линейна в log-log пространстве

Закон Ципфа для Reuters RC1

Частота термина в коллекции быстро падает с увеличением ранга => очень много редких терминов

Хранение словаря в виде массива

Термины упорядочены лексикографически
Бинарный поиск в массиве при поиске термина
Элементы фиксированной длины (напр., 20 байт как длина максимального слова в английском)
M * (20 + 4 + 4) = 28 * M, M - число терминов

Словарь как строка

Словарь хранится как одна длинная строка
Указатели отмечают начало слова
Для Reuters RCV1: M=400000
бита или 3 байта на указатели
8 байт - средняя длина английского слова
M * (4 + 4 + 3 + 8) = 19*M

\log_2 400000*8 \approx 22

lo g ​ 2 ​ ​ 400000 * 8 \approx 22

Блочное хранение

Термины группируются по блокам длины k
Указатели отмечают начало блока
Дополнительно хранится длина термина (1 байт на термин => k байт для блока)
Для k=4 экономим (k-1)*3=9 байт на указателях и дополнительно занимаем 4 байта для длин
M*(4 + 4 + 3/4 + 8) = 17.75*M

Term lookup/compression trade-off on k

Между блоками - бинарный поиск в массиве
Внутри блока - линейный поиск
Можно подобрать оптимальный k для сжатия и достаточного быстрого поиска

Фронтальное кодирование

Используем блочное кодирование
Храним общий префикс для терминов в блоке
* - спецсимвол конца префикса
♢ - спецсимвол, заменяющий префикс
Reuters RCV1 сжимается еще на 17%

Хранение словопозиций

В Reuters RCV1:
- 800000 документов
- в среднем 200 лексем в документе
- средняя длина лексемы = 6
- 100 млн. словопозиций
Необходимо бит на docID
Рассматриваем только docID в слопозициях
Файл словопозиций занимает 100 000 000*20/8 = 250 MБ
Цель сжатия - получить меньше 20 бит на docID

\log_2 800000 \approx 20

lo g ​ 2 ​ ​ 800000 \approx 20

Пропуски в списке словопозиций

Идея - хранить пропуски вместо docID, т.е. число документов до следующего документа, содержащего термин
Для высоко и среднечастотных терминов - ОК
Для редких - эквивалентно хранению исходных docID
=> кодирование с переменной длиной

Кодирование переменной длины

Variable byte encoding - пример побайтового (byte-level) кодирования
Кодируем docID и значения пропусков с помощью байтов следующего свойства:
- 7 последних бит в байте значимы
- 1й бит указывает, заканчивается ли на этом байте код
- => однозначное префиксное декодирование
Сжимает коллекцию Reuters RCV1 на > 50%

Алгоритмы (де)кодирования для кодов переменной длины

Гамма коды

Пропуски представляется как пара <длина, отступ>
Отступ (offset) - это пропуск в бинарном виде с удаленным старшим битом:
- например, 13 => 1101 => 101
Длина - это длина отступа в виде унарного кода:
- унарный код числа n: n единиц с заключительным нулем
- 13 => 3 бита => 1110
Гамма код - это конкатенация длины и отступа:
- 13 => 1110 101

Свойства гамма кодов

Однозначное префиксное декодирование:
- Сначала декодируется унарный код (до первого 0)
- Затем отступ в бинарном виде после добавления начальной 1
Длина кода =
=> длина кода - гарантировано в пределах 2x длин оптимального кода (с равновероятными пропусками), т.е.
=> гамма код - универсальный код
Reuters RCV1 сжимается на 15% лучше, чем VBE
свободен от параметров
более медленный при декодировании из-за длины не кратной машинному слову (8,16,32 ...)

2*\lfloor\log_2 G \rfloor + 1

2 * ⌊ lo g ​ 2 ​ ​ G ⌋ + 1

\log_2 G

lo g ​ 2 ​ ​ G

2^n

2 ​ n ​ ​

IR Course - Lecture 2 - Index construction & compression

By Nikita Zhiltsov

IR Course - Lecture 2 - Index construction & compression

4,211

Nikita Zhiltsov

Research fellow at Kazan Federal University (Russia)

Введение в информационный поиск

Алгоритмы построения индекса

Обзор

Важнейшие показатели отклика

Основные факты о "железе"

Indexing Revisited

Типичная тестовая коллекция

Типичная тестовая коллекция

Блочное индексирование, основанное на сортировке

Блочное индексирование, основанное на сортировке

Посчитать время работы BSBI для Reuters-RCV1

Проблема

Карта term -> termID не помещается в RAM

Проблема

Карта term -> termID не помещается в RAM

Однопроходное индексирование в ОП

Распределенное индексирование с MapReduce

Алгоритмы сжатия индекса

Обзор

Закон Хипса

Закон Хипса для Reuters RCV-1

Закон Ципфа

Закон Ципфа для Reuters RC1

Хранение словаря в виде массива

Словарь как строка

Блочное хранение

Term lookup/compression trade-off on k

Фронтальное кодирование

Хранение словопозиций

Пропуски в списке словопозиций

Кодирование переменной длины

Алгоритмы (де)кодирования для кодов переменной длины

Гамма коды

Свойства гамма кодов

IR Course - Lecture 2 - Index construction & compression

More from Nikita Zhiltsov