Brève Introduction
à la fouille de texte
Nicolas Rochet
2019-2020
text mining ?
... sur des données textuelles
Le data mining est un processus d'extraction de structures inconnues, valides et potentiellement exploitables
U.M.Fayyad, G.Piatetski-Shapiro
tweets
messages de forums
e-mails
articles
livres
...
Données du web
enquêtes
Fouille de texte
Traitement
Automatique du Langage Naturel
TALN
langage ecrit
langage parlé
linguistique
informatique
statistique
machine learning
Un domaine de plus
Données structurées
(tabulaires)
Données non structurées
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus ac nunc tristique, maximus enim eget, sodales neque.
<texte>
</texte>
Comment transformer le corpus en données structurée ?
Aenean lobortis ornare diam, nec pellentesque odio viverra at.
<texte>
</texte>
Corpus
variables
...
...
observations
la représentation bag-of-words
Transformation d'une collection de texte en tableau de données
sans nécessiter de connaissances sur le domaine étudié
1. Repérer les tokens dans les documents
2. Constituer un dictionnaire de ces tokens
3. Transformer chaque token en feature en comptant leur présence dans chaque document
Etapes :
Exemple de bag-of-words
1. Imaging databases can be huge
4 documents (Coelho & Richert, 2015)
2. Most imaging databases save images permanently
3. Imaging databases store images
4. Imaging databases store images. Imaging databases store images. Imaging databases store images
Comptage de la présence des mots
document
| imaging | databases |
can |
get |
huge |
most | save |
images |
permanently |
store |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
| 1 | 1 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 |
| 1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 |
| 1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 |
| 1 |
|---|
| 2 |
| 3 |
| 4 |
Problèmes
Term Frequency (TF)
Term Frequency -Inverse Document Frequency (TF-IDF)
Certains mots ne sont pas intrinsquément porteur de sens
suppression des stop-words
Certains mots ont le même contenu sémantiques
racinisation & lemmatisation
Le comptage ne tient pas compte de la fréquence d'apparition
document
| imaging | databases |
can |
get |
huge |
most | save |
images |
permanently |
store |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
| 1 | 1 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 |
| 1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 |
| 1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 |
| 1 |
|---|
| 2 |
| 3 |
| 4 |
remarques sur bag-of-words
Sa dimensionnalité est
souvent très élevée
Le tableau de données issus de bag-of-words est particulier:
il contient beaucoup de zéros
la réduction de dimension est un enjeu crucial
utiliser des représentation sous forme de sparse-vector pour économiser la mémoire
Principales applications
Extraction d'information
Indexation
Moteurs de recherche
Recherche d'information
Résumé automatique
Catégorisation de texte
Clustering de texte
Analyse de lien
Breve introduction au text mining
By Nicolas Rochet
Breve introduction au text mining
Cours 2019 -2020
- 98