Очистка текста
Токенизация текста. Построение н-грамм
3-граммы - abcdab - {abc, bcd, cda, dab}
x - номер строки
r - общее количество строк
a, b - случайные числа (a, b < r)
Minhash
Сharacteristic matrix
Схожесть
Схожесть
Вероятность h(D1) = h(D2)
Вероятность встретить строку А перед строкой B
Если первая встреченная строка типа А - h(D1) = h(D2). Если первая встреченная строка B - то h(D1) ≠ h(D2)