РАЗРАБОТКА МЕТОДА РАНЖИРОВАНИЯ СЕМАНТИЧЕСКИ АННОТИРОВАННЫХ ДОКУМЕНТОВ

Мингазов Никита, гр. 09-107

Постановка задачи

Применить информацию, получаемую из семантических информаций, для улучшения ранжировании поиска

Выделение именованных сущностей

Аналоги

  • Компонент Mimir проекта GATE
  • Компонент ContentHub проекта Apache Stanbol

Оба:

  1. Имеют достаточную инфраструктуру
  2. Не уделяют внимания ранжированию
  3. В основном для английского языка

Составление коллекции

  • Тестовая коллекция документов - новости о компаниях за 2013-2015 гг.

  • Набор запросов, например:

    • "Total Кристоф де Маржери"
    • "Газпром Китай контракт поставки газа"
    • "Runa Capital инвестиции"
  • Набор оценок релевантности для пар “запрос-документ” - 4 уровня

  • Мера оценки - была выбрана мера NDCG:

Базовые признаки

TF-IDF:

Okapi BM25:

LM Dirichlet:

Идея - в качестве запросов выбрать аннотации запроса, в качестве текста документа - текст аннотаций документа

Entity-level признаки

  1. Делим документ и запрос на слова.

  2. Считаем частоты слов запроса в документе.

  3. Суммируем полученные частоты.

  4. Делим на количество слов в документе.

Simple Score

  1. Разбиваем каждую аннотацию документа и запроса на слова.

  2. Для каждого слова из запроса и аннотации считаем его процентную частоту.

  3. Усредняем по аннотациям документа и словам запроса.

Moderate Score

  1. Считаем количество тех аннотаций документа, которые включают в себя все слова из запроса

  2. Делим на общее число аннотаций в документе

Discrete Perfect Match

  1. Среднее степенное

  2. Среднее степенное, домноженное на быстрорастущую функцию от количества ненулевых встреченных аннотаций

Усреднение по аннотациям запроса

Итоги работы

Итоги работы

Возможные причины

  • Недостаточное количество размеченных документов в коллекции

  • Недостаточная точность разметки с помощью автоматических средств обработки данных

  • Неподходящий выбор алгоритма обучения ранжированию

  • Недостаточная информативность выбранных признаков

Спасибо за внимание!

Дипломная

By stdfx

Дипломная

  • 565