Des applications pratiques du text mining scientifique
Patrice Lopez


-
Text mining / fouille de textes correspond à un ensemble de technique visant à extraires des informations structurées (patterns) de textes brutes
-
Data Mining / fouille de données / Data science, ensemble de technique visant à extraires des informations structurées (patterns) de données brutes
-
Data Analytics (traitement analytique de donnéee) est l’exploitation des d’informations structurées (extraites ou non de données brutes) en vue de résoudre un problème d’activité économique
-
Text Analytics correspond à du Data Analytics sur des données d’origine textuelle (provenant souvent de fouille de textes)
Cette présentation...
- ... se focalisera uniquement sur le text mining
(pas sur le data mining)
- ... ne couvrira que les applications effectives
(pas les applications potentielles et à venir)
- ...se concentre sur les applications scientifiques et techniques
(pas sur l'analyse de sentiments, les mots-clefs publicitaires, etc.)
Pourquoi le text mining?
Croissance du volume de publications
-
~1,5 millions nouveaux articles scientifiques par an
-
+7% par an, double tous les 10 ans
-
Scientometrics 2010; 84(3): 575–603
-
-
2.2 millions de publications brevets par an
chercheur | 1977 | 2012 |
---|---|---|
lectures articles/mois | 12-13 | 22 |
temps par article | 48 mn | 32 mn |
articles par an | ~120 000 | > 1 000 000 (x8) |
-
Résumé et classifications ne suffisent pas
-
“Only 7.84% of the scientific claims made in full-text articles are found in their abstracts.”
-
Catherine Blake. “Beyond genes, proteins, and abstracts: Identifying scientific claims from full-text biomedical articles.” Journal of Biomedical Informatics Volume 43, Issue 2, April 2010, Pages 173–189
-
- Revue systématique (“systematic review”), étude exhaustive de la littérature pertinente à une question de recherche : 10 000 plein textes à lire, >1000 heures en moyenne, jusqu'à 18 mois
- Recherche de brevets : ~80% des documents des rapports de recherche OEB ne partagent pas la classe principale IPC de la demande
Nécessité d'exploiter le plein texte
- Les autorités publiques de santé d'Afrique de l'ouest considèraient que le virus Ebola n'avait pas été observé au Libéria, Sierra Leone et Guinée avant 2013
- Aucune précaution, mesure, etc. relatif au virus Ebola n'avait été prévue pour le personnel médical de ces pays
- Pour cette raison l’épidémie causa plus de 11 000 décès
Un exemple : l'épidémie du virus Ebola au Libéria, Sierra Leone et Guinée en 2013-2016

Un exemple : l'épidémie du virus Ebola au Libéria, Sierra Leone et Guinée en 2013-2016

Dans le plein texte uniquement...


Tâche typique du Text mining
Exemple
avec
Adage in public health: “The road to inaction is paved with research papers.”
Applications pratiques du text mining
Amélioration des moteurs de recherche
- Pour un moteur de recherche standard, une requête sur un terme va retourner toutes ses occurences
- Pour les recherches d'information orientées rappel, cela aboutit à un bruit et une perte de temps considérable
Galaxie d'Andromède
Andromeda galaxy
Andromeda
M31
NGC 224
PGC 2557
MCG+07-02-016
UGC 454
1RXS J004241.8+411535
CGCG 535-017
MAXI J0043+410
CGCG 0040.0+4100
2PBC J0042.6+4111
MCG +07-02-016
XMMLPt 1010
GIN 801
XMMM31 J004244.1+411607
B3 0040+409

2MASX J00424433+4116074
J004244.4+411612
IRAS 00400+4059
EXSS 0039.9+4059
IRAS F00400+4059
1H 0039+408
KTG 01C
1ES 0039+409
LDCE 0031 NED007
XSS J00425+4102
HDCE 0029 NED003
2FGL J0042.5+4114
LQAC 010+041 001
HOLM 017A
NSA 127580
PGC 002557
11HUGS 013
etc.


- Les expansions de requêtes ne résolvent pas le problème d'accès à l'information scientifique, mais au contraire agravent le bruit
- Le text mining permet de résoudre en amont le problème en désambiguisant les termes en contexte


entity-fishing


entity-fishing
Recherche de mesures physiques
- If you want to check for a thickness in the range between 100 and 300 micron, you could use the query:
- Cette expression va manquer beaucoup de formes communes : 100,5μm, 0,2mm, 2.10-4m, etc.
- Elle demande une connaissance experte du moteur de recherche
- Beaucoup d’erreurs possible dans sa formulation
- Très peu de moteurs de recherche supportent de tels opérateurs (pas Google Scholar par exemple)
([1-2][0-9][0-9] or 300) 3W (OR micro?, micromet?r??, MU_M, UM)

grobid-quantities

grobid-quantities

Recherche de document en Chimie
- La base PubChem par exemple contient plus de 600 millions d'entrées : substances, composés, dosages
- Des outils de text mining sont utilisés pour identifier les entités chimiques mentionnées dans les documents afin de les rendre cherchables
- SureChEMBL, SciFinder (CAS), Reaxys (Elsevier), ChemSpider, PatSnap
- Ces outils sont utilisés de façon routinière par les chimistes depuis quelques années
SureChEMBL : substances chimique textuelles

SureChEMBL : formules graphiques

SureChEMBL : requêtes

Extraction d'information
- Extraction d'entités bio-médicales et de relations




Pour des domaines établis, riches en ressources comme la biomédicine!
- L'extraction automatique d'informations bibliographiques est aujourd'hui communément utilisée dans les grands services de diffusion d'information scientifique
- réseau sociaux pour chercheurs ;
- grands organismes scientifiques CERN, NASA ;
- service de recherche académique Google Scholar, Semantic Scholar
Informations bibliographiques

HAL : références bibliographiques extraites automatiquement du PDF par GROBID
Merci pour votre attention !
Patrice Lopez


INIST
By kermitt2
INIST
- 1,106