Алгоритм отложенного обновления вторичных LSM индексов
в Tarantool

Докладчик:

Шпилевой Владислав Дмитриевич

План доклада

B- и LSM деревья в БД
Проблема нескольких LSM-индексов
Существующие решения
Новый алгоритм
Планы

Базы данных и B-деревья

id	name	email	salary
...	...	...	...

Таблица

name	id
...	...

email	id
...	...

Индекс 1

Индекс 2

SELECT WHERE name = ...

SELECT WHERE email = ...

UPDATE WHERE name = ...

Индексы - для быстрого поиска, удаления, обновления данных.

Это способ хранения и сортировки. Одни данные - много индексов, вариантов сортировок.

Вариант 1 - Б-дерево

Read/Write

balance

HDD

SSD

Баланс скорости случайных чтения/записи

Дисбаланс скорости последовательных

чтения/записи

"Бесплатные" чтения

> 100х скорость HDD

Случайные записи

LSM-деревья

Память

Диск

Уровень 0

Уровень 1

Уровень N

Версионность записей
Горячие данные в памяти
Запись на диск всегда последовательна
Удаление старых версий всегда последовательно

Обновление индексов

Б-дерево

LSM-дерево

INSERT OR REPLACE

DELETE

INSERT OR REPLACE

DELETE

Индекс

Найти старую запись

Вставить новую запись

Заменить старую запись

Запись на диск

Найти старую запись

Удалить

старую запись

Чтение диска

Вставить в нулевой уровень:

{данные, INSERT, версия}

Вставить в нулевой уровень:

{ключ, DELETE, версия}

Нет обращений к диску. Последовательная запись при сбросе уровня 0 на диск.

Проблема нескольких LSM-индексов: пример

Таблица

Вторичный индекс

Первичный индекс

INSERT (1,2,3,4)

{a=1, b=2, c=3, d=4, version=1}

{b=2, c=3, a=1, version=1}

REPLACE (1,5,6,7)

{a=1, b=2, c=3, d=4, version=1}

{a=1, b=5, c=6, d=7, version=2}

{b=2, c=3, a=1, version=1}

{b=5, c=6, a=1, version=2}

Удаление старых версий

{a=1, b=5, c=6, d=7, version=2}

{b=2, c=3, a=1, version=1}

{b=5, c=6, a=1, version=2}

Так как version 1 и 2 равны по ключу индекса:

{a=1} == {a=1}

{b=2, c=3} != {b=5, c=6}

!!!

Ошибка! Количество записей не одинаково

Проблема нескольких LSM-индексов: итог

Версионность вторичных индексов не работает

Чтение диска на каждую операцию

Старые версии данных нужно удалять из вторичных индексов сразу, из-за чего:

Отложенное обновление B-деревьев

Возможна ребалансировка при обновлении вторичных ключей

Случайная запись - не дорогая

UPDATE

Прочитать первичный индекс

Применить обновления

Разбросать по файлам

Дифференциальный

файл

Замещение старых

записей, ребалансировка

{new tuple, new tuple, ...}

Двухуровневое B-дерево и SSD

Hash LID -> {RID}

LID B-tree

{... tuple, tuple, tuple, tuple, tuple, tuple, tuple ...}

LID - Logical Record IDentifier

RID - Physical Row IDentifier

Версионирование на уровне приложения

Аналитика

SSD - дорого и мало

Предложенный алгоритм обновления данных

Если все вторичные индексы неуникальны, то чтение первичного нужно только для удаления мусора

Можно писать во все индексы не удаляя читая и удаляя старые записи сразу, а отложить это до слияния уровней

REPLACE - писать во все индексы как есть

DELETE - писать только в первичный индекс

Для этого можно использовать 100% актуальность первичного индекса

Предложенный алгоритм обновления данных

Рассмотрим обновление данных через REPLACE на примере таблицы:

Первичный индекс

Вторичный индекс

{1,2,3,4, version=1}

{1,5,6,7, version=2}
{1,8,9,10, version=3}

{2,3,1, version=1}

{5,6,1, version=2}

{8,9,1, version=3}

Первичный индекс объединяет LSM-уровни

Первичный индекс

{1,8,9,10, version=3}

Удаленные из первичного индекса записи можно использовать:

{1,2,3,4, version=1} и {1,5,6,7, version=2}

DELETE {2,3,1 version=1}

DELETE {5,6,1 version=2}

Вторичный индекс

{2,3,1, version=1}

{5,6,1, version=2}

{8,9,1, version=3}

Вторичный индекс объединяет LSM-уровни

Вторичный индекс

{8,9,1, version=3}

Старые версии удалены из обоих индексов без чтений диска!

Предложенный алгоритм удаления данных

Рассмотрим удаление данных на той же таблице

Первичный индекс

Вторичный индекс

{1,2,3,4, version=1}

{delete 1, version=2}

{2,3,1, version=1}

Первичный индекс объединяет LSM-уровни

Первичный индекс

{empty}

Удаленные из первичного индекса записи по dry delete можно использовать:

{1,2,3,4, version=1}

DELETE {2,3,1 version=1}

Вторичный индекс

{2,3,1, version=1}

{delete 2,3,1, version=1}

Вторичный индекс объединяет LSM-уровни

Вторичный индекс

Старые версии удалены из обоих индексов без чтений диска!

{empty}

Предложенный алгоритм поиска данных

SELECT * FROM test WHERE sk = sk1

Вторичный

индекс

Первичный

индекс

{pk1, sk1, vers. = 3}

{pk1, sk2, vers. = 4}

{pk2, sk1, vers. = 2}

{pk2, sk2, vers. = 5}

{pk3, sk1, vers. = 1}

Результат

Реализация

TX поток

Уровни первичного индекса

Vinyl

worker

}

Слияние уровней первичного индекса

...

B+ деревья по вторичным ключам

Новые уровни для всех индексов

Первичный индекс

Каждый вторичный индекс

Оценки сложности

Ускорение DELETE

Ускорение REPLACE

Планы

Не сортировать удаляемые записи полностью в памяти
Не читать служебные файлы с удалениями
Можно расширить DELETE на уникальные индексы

Новые LSM индексы в Tarantool

By Vladislav Shpilevoy

Новые LSM индексы в Tarantool

1,868

Vladislav Shpilevoy PRO

Backend C++ developer at VirtualMinds. Database C developer at Tarantool.

linkedin.com/in/gerold103

Алгоритм отложенного обновления вторичных LSM индексов в Tarantool

План доклада

Базы данных и B-деревья

SSD

LSM-деревья

Обновление индексов

Проблема нескольких LSM-индексов: пример

Проблема нескольких LSM-индексов: итог

Отложенное обновление B-деревьев

Двухуровневое B-дерево и SSD

Предложенный алгоритм обновления данных

Предложенный алгоритм обновления данных

Предложенный алгоритм удаления данных

Предложенный алгоритм поиска данных

Реализация

Оценки сложности

Планы

Новые LSM индексы в Tarantool

More from Vladislav Shpilevoy

Алгоритм отложенного обновления вторичных LSM индексов
в Tarantool