Практические аспекты работы с задачей NER
Andrey Lukyanenko
CV R&D Lead, MTS AI
Содержание
- NER: Cуть задачи
- Разметка
- Метрики
- Парсинг на правилах
- sklearn_crfsuite
- spacy
- bi-lstm
NER: Суть задачи
Разметка
Основные подходы
Метрики
- Просто верное/неверное предсказание токена
- Ошибка в типе сущности
- Ошибка в границах сущности
- Precision, Recall, F1-score
Подходы к улучшению метрик
- Собрать побольше данных
- Претренировать эмбеддинги самостоятельно
- Использовать active learning
- Аугментировать данные
- Тюнить гиперпараметры
Links
https://github.com/susanli2016/NLP-with-Python/blob/master/NER_sklearn.ipynb
https://medium.com/@phylypo/nlp-text-segmentation-using-conditional-random-fields-e8ff1d2b6060
http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation
https://paperswithcode.com/task/named-entity-recognition-ner
data: https://groups.csail.mit.edu/sls/downloads/restaurant/
http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/
Contacts
-
ods.ai @artgor
deck
By Andrey Lukyanenko
deck
- 431