Практические аспекты работы с задачей NER

Andrey Lukyanenko

CV R&D Lead, MTS AI

Содержание

  • NER: Cуть задачи
  • Разметка
  • Метрики
  • Парсинг на правилах
  • sklearn_crfsuite
  • spacy
  • bi-lstm

NER: Суть задачи

Разметка

Основные подходы

Метрики

  • Просто верное/неверное предсказание токена
  • Ошибка в типе сущности
  • Ошибка в границах сущности
  • Precision, Recall, F1-score

Подходы к улучшению метрик

  • Собрать побольше данных
  • Претренировать эмбеддинги самостоятельно
  • Использовать active learning
  • Аугментировать данные
  • Тюнить гиперпараметры

Links

Contacts