РАЗРАБОТКА МЕТОДА РАНЖИРОВАНИЯ СЕМАНТИЧЕСКИ АННОТИРОВАННЫХ ДОКУМЕНТОВ

Мингазов Никита, гр. 09-107

Постановка задачи

Применить информацию, получаемую из семантических информаций, для улучшения ранжировании поиска

Выделение именованных сущностей

Аналоги

Компонент Mimir проекта GATE
Компонент ContentHub проекта Apache Stanbol

Оба:

Имеют достаточную инфраструктуру
Не уделяют внимания ранжированию
В основном для английского языка

Составление коллекции

Тестовая коллекция документов - новости о компаниях за 2013-2015 гг.

Набор запросов, например:

"Total Кристоф де Маржери"

"Газпром Китай контракт поставки газа"

```
"Runa Capital инвестиции"
```

Набор оценок релевантности для пар “запрос-документ” - 4 уровня
Мера оценки - была выбрана мера NDCG:

Базовые признаки

TF-IDF:

Okapi BM25:

LM Dirichlet:

Идея - в качестве запросов выбрать аннотации запроса, в качестве текста документа - текст аннотаций документа

Entity-level признаки

Делим документ и запрос на слова.
Считаем частоты слов запроса в документе.
Суммируем полученные частоты.
Делим на количество слов в документе.

Simple Score

Разбиваем каждую аннотацию документа и запроса на слова.
Для каждого слова из запроса и аннотации считаем его процентную частоту.
Усредняем по аннотациям документа и словам запроса.

Moderate Score

Считаем количество тех аннотаций документа, которые включают в себя все слова из запроса
Делим на общее число аннотаций в документе

Discrete Perfect Match

Среднее степенное
Среднее степенное, домноженное на быстрорастущую функцию от количества ненулевых встреченных аннотаций

Усреднение по аннотациям запроса

Итоги работы

Возможные причины

Недостаточное количество размеченных документов в коллекции
Недостаточная точность разметки с помощью автоматических средств обработки данных
Неподходящий выбор алгоритма обучения ранжированию
Недостаточная информативность выбранных признаков

Постановка задачи

Выделение именованных сущностей

Аналоги

Оба:

Составление коллекции

Базовые признаки

Entity-level признаки

Simple Score

Moderate Score

Discrete Perfect Match

Усреднение по аннотациям запроса

Итоги работы

Итоги работы

Возможные причины

Спасибо за внимание!

Дипломная

Дипломная

stdfx

Постановка задачи

Выделение именованных сущностей

Аналоги

Оба:

Составление коллекции

Базовые признаки

Entity-level признаки

Simple Score

Moderate Score

Discrete Perfect Match

Усреднение по аннотациям запроса

Итоги работы

Итоги работы

Возможные причины

Спасибо за внимание!

Дипломная

More from stdfx