Des applications pratiques du text mining scientifique

Patrice Lopez

Text mining / fouille de textes correspond à un ensemble de technique visant à extraires des informations structurées (patterns) de textes brutes
Data Mining / fouille de données / Data science, ensemble de technique visant à extraires des informations structurées (patterns) de données brutes
Data Analytics (traitement analytique de donnéee) est l’exploitation des d’informations structurées (extraites ou non de données brutes) en vue de résoudre un problème d’activité économique
Text Analytics correspond à du Data Analytics sur des données d’origine textuelle (provenant souvent de fouille de textes)

Cette présentation...

... se focalisera uniquement sur le text mining

(pas sur le data mining)

... ne couvrira que les applications effectives

(pas les applications potentielles et à venir)

...se concentre sur les applications scientifiques et techniques

(pas sur l'analyse de sentiments, les mots-clefs publicitaires, etc.)

Pourquoi le text mining?

Croissance du volume de publications

~1,5 millions nouveaux articles scientifiques par an
+7% par an, double tous les 10 ans
- Scientometrics 2010; 84(3): 575–603
2.2 millions de publications brevets par an

chercheur	1977	2012
lectures articles/mois	12-13	22
temps par article	48 mn	32 mn
articles par an	~120 000	> 1 000 000 (x8)

http://www.nature.com/news/scientists-may-be-reaching-a-peak-in-reading-habits-1.14658

Résumé et classifications ne suffisent pas
“Only 7.84% of the scientific claims made in full-text articles are found in their abstracts.”
- Catherine Blake. “Beyond genes, proteins, and abstracts: Identifying scientific claims from full-text biomedical articles.” Journal of Biomedical Informatics Volume 43, Issue 2, April 2010, Pages 173–189
Revue systématique (“systematic review”), étude exhaustive de la littérature pertinente à une question de recherche : 10 000 plein textes à lire, >1000 heures en moyenne, jusqu'à 18 mois
Recherche de brevets : ~80% des documents des rapports de recherche OEB ne partagent pas la classe principale IPC de la demande

Nécessité d'exploiter le plein texte

Les autorités publiques de santé d'Afrique de l'ouest considèraient que le virus Ebola n'avait pas été observé au Libéria, Sierra Leone et Guinée avant 2013
Aucune précaution, mesure, etc. relatif au virus Ebola n'avait été prévue pour le personnel médical de ces pays
Pour cette raison l’épidémie causa plus de 11 000 décès

Un exemple : l'épidémie du virus Ebola au Libéria, Sierra Leone et Guinée en 2013-2016

https://www.nytimes.com/2015/04/08/opinion/yes-we-were-warned-about-ebola.html

Un exemple : l'épidémie du virus Ebola au Libéria, Sierra Leone et Guinée en 2013-2016

https://api.istex.fr/document/B9DB819C89A9D394BE9E81FB280F10458961B062

Dans le plein texte uniquement...

Tâche typique du Text mining

Exemple

avec

Adage in public health: “The road to inaction is paved with research papers.”

https://www.nytimes.com/2015/04/08/opinion/yes-we-were-warned-about-ebola.html

Applications pratiques du text mining

Amélioration des moteurs de recherche

Pour un moteur de recherche standard, une requête sur un terme va retourner toutes ses occurences

Pour les recherches d'information orientées rappel, cela aboutit à un bruit et une perte de temps considérable

Galaxie d'Andromède

Andromeda galaxy
Andromeda
M31
NGC 224
PGC 2557
MCG+07-02-016
UGC 454
1RXS J004241.8+411535
CGCG 535-017
MAXI J0043+410
CGCG 0040.0+4100
2PBC J0042.6+4111
MCG +07-02-016
XMMLPt 1010
GIN 801
XMMM31 J004244.1+411607
B3 0040+409

2MASX J00424433+4116074
J004244.4+411612
IRAS 00400+4059
EXSS 0039.9+4059
IRAS F00400+4059
1H 0039+408
KTG 01C
1ES 0039+409
LDCE 0031 NED007
XSS J00425+4102
HDCE 0029 NED003
2FGL J0042.5+4114
LQAC 010+041 001
HOLM 017A
NSA 127580
PGC 002557
11HUGS 013
etc.

Les expansions de requêtes ne résolvent pas le problème d'accès à l'information scientifique, mais au contraire agravent le bruit

Le text mining permet de résoudre en amont le problème en désambiguisant les termes en contexte

entity-fishing

Recherche de mesures physiques

If you want to check for a thickness in the range between 100 and 300 micron, you could use the query:

Cette expression va manquer beaucoup de formes communes : 100,5μm, 0,2mm, 2.10-4m, etc.
Elle demande une connaissance experte du moteur de recherche
Beaucoup d’erreurs possible dans sa formulation
Très peu de moteurs de recherche supportent de tels opérateurs (pas Google Scholar par exemple)

([1-2][0-9][0-9] or 300) 3W (OR micro?, micromet?r??, MU_M, UM)

grobid-quantities

Recherche de document en Chimie

La base PubChem par exemple contient plus de 600 millions d'entrées : substances, composés, dosages
Des outils de text mining sont utilisés pour identifier les entités chimiques mentionnées dans les documents afin de les rendre cherchables
SureChEMBL, SciFinder (CAS), Reaxys (Elsevier), ChemSpider, PatSnap
Ces outils sont utilisés de façon routinière par les chimistes depuis quelques années

SureChEMBL : substances chimique textuelles

SureChEMBL : formules graphiques

SureChEMBL : requêtes

Extraction d'information

Extraction d'entités bio-médicales et de relations

Pour des domaines établis, riches en ressources comme la biomédicine!

L'extraction automatique d'informations bibliographiques est aujourd'hui communément utilisée dans les grands services de diffusion d'information scientifique
- réseau sociaux pour chercheurs ;
- grands organismes scientifiques CERN, NASA ;
- service de recherche académique Google Scholar, Semantic Scholar

Informations bibliographiques

https://hal.archives-ouvertes.fr/inria-00490312

HAL : références bibliographiques extraites automatiquement du PDF par GROBID

Merci pour votre attention !