Text mining / fouille de textes correspond à un ensemble de technique visant à extraires des informations structurées (patterns) de textes brutes
Data Mining / fouille de données / Data science, ensemble de technique visant à extraires des informations structurées (patterns) de données brutes
Data Analytics (traitement analytique de donnéee) est l’exploitation des d’informations structurées (extraites ou non de données brutes) en vue de résoudre un problème d’activité économique
Text Analytics correspond à du Data Analytics sur des données d’origine textuelle (provenant souvent de fouille de textes)
(pas sur le data mining)
(pas les applications potentielles et à venir)
(pas sur l'analyse de sentiments, les mots-clefs publicitaires, etc.)
~1,5 millions nouveaux articles scientifiques par an
+7% par an, double tous les 10 ans
Scientometrics 2010; 84(3): 575–603
2.2 millions de publications brevets par an
chercheur | 1977 | 2012 |
---|---|---|
lectures articles/mois | 12-13 | 22 |
temps par article | 48 mn | 32 mn |
articles par an | ~120 000 | > 1 000 000 (x8) |
Résumé et classifications ne suffisent pas
“Only 7.84% of the scientific claims made in full-text articles are found in their abstracts.”
Catherine Blake. “Beyond genes, proteins, and abstracts: Identifying scientific claims from full-text biomedical articles.” Journal of Biomedical Informatics Volume 43, Issue 2, April 2010, Pages 173–189
Exemple
avec
Adage in public health: “The road to inaction is paved with research papers.”
Andromeda galaxy
Andromeda
M31
NGC 224
PGC 2557
MCG+07-02-016
UGC 454
1RXS J004241.8+411535
CGCG 535-017
MAXI J0043+410
CGCG 0040.0+4100
2PBC J0042.6+4111
MCG +07-02-016
XMMLPt 1010
GIN 801
XMMM31 J004244.1+411607
B3 0040+409
2MASX J00424433+4116074
J004244.4+411612
IRAS 00400+4059
EXSS 0039.9+4059
IRAS F00400+4059
1H 0039+408
KTG 01C
1ES 0039+409
LDCE 0031 NED007
XSS J00425+4102
HDCE 0029 NED003
2FGL J0042.5+4114
LQAC 010+041 001
HOLM 017A
NSA 127580
PGC 002557
11HUGS 013
etc.
entity-fishing
entity-fishing
([1-2][0-9][0-9] or 300) 3W (OR micro?, micromet?r??, MU_M, UM)
grobid-quantities
grobid-quantities
Pour des domaines établis, riches en ressources comme la biomédicine!
HAL : références bibliographiques extraites automatiquement du PDF par GROBID