Лекция 1
Основы информационного поиска
Структура инвертированного индекса
Научная область, объединяющая исследования по структурированию, анализу, организации, хранению и извлечению информации
Документ - единица поиска, напр., веб-страница, глава в книге, файл изображения
Коллекция (или корпус) - группа документов
Информационная потребность - тема, по которой пользователь стремится получить больше информации
Поисковый запрос - способ передачи информационной потребности
Релевантность - степень соответствия документа информационной потребности с точки зрения пользователя
Поиск в коллекции документов, релевантных определенной пользовательской информационной потребности, выраженной при помощи поискового запроса
A. Broder предложил выделить 3 типа запросов:
Алгоритмы обработки часто зависят от типа запроса
A. Broder. A Taxonomy of Web Search (2002)
Словарь (dictionary) терминов
Словопозиции (posting list) - отсортированный список идентификаторов документов, содержащих данный термин
Поисковые запросы:
Поисковый запрос в общем случае:
Brutus AND Caesar
Brutus OR Caesar AND NOT Calpurnia
Вычислительная сложность по длине словопозиций m и n? По количеству документов N?
Brutus OR Calpurnia
(Calpurnia AND Brutus) AND Caesar
Сублинейная сложность, напр.,
Словопозиция = координата лексемы в документе (порядковый номер)
Окно ширины k (k word proximity)
Запрос: to be or not to be
Окно ширины k (k word proximity)
Вычислительная сложность алгоритма?
Окно ширины k (k word proximity)
Williams et al. Fast phrase querying with combined indexing (2004)