Brève Introduction

à la fouille de texte

Nicolas Rochet

2019-2020

text mining ?

... sur des données textuelles

Le data mining est un processus d'extraction de structures inconnues, valides et potentiellement exploitables

U.M.Fayyad, G.Piatetski-Shapiro

tweets

messages de forums

e-mails

articles

livres

...

Données du web

enquêtes

Fouille de texte

Traitement

Automatique du Langage Naturel

TALN

langage ecrit

langage parlé

linguistique

informatique

statistique

machine learning

Un domaine de plus

Données structurées

(tabulaires)

Données non structurées

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus ac nunc tristique, maximus enim eget, sodales neque.

<texte>

</texte>

Comment transformer le corpus en données structurée ?

Aenean lobortis ornare diam, nec pellentesque odio viverra at.

<texte>

</texte>

Corpus

variables

X_1
X_2
X_3

...

...

observations

la représentation bag-of-words

Transformation d'une collection de texte en tableau de données

sans nécessiter de connaissances sur le domaine étudié

1. Repérer les tokens dans les documents

2. Constituer un dictionnaire de ces tokens

3. Transformer chaque token en feature en comptant leur présence dans chaque document

Etapes :

Exemple de bag-of-words

1. Imaging databases can be huge

4 documents (Coelho & Richert, 2015)

2. Most imaging databases save images permanently

3. Imaging databases store images

4. Imaging databases store images. Imaging databases store images. Imaging databases store images

Comptage de la présence des mots

document

imaging databases
can
get
huge
most save
images
permanently
store
1 1 1 1 1 0 0 0 0 0
1 1 0 0 0 1 1 1 1 0
1 1 0 0 0 0 0 1 0 1
1 1 0 0 0 0 0 1 0 1
1
2
3
4

Problèmes

Term Frequency (TF)

Term Frequency -Inverse Document Frequency (TF-IDF)

Certains mots ne sont pas intrinsquément porteur de sens

suppression des stop-words

Certains mots ont le même contenu sémantiques

racinisation & lemmatisation

Le comptage ne tient pas compte de la fréquence d'apparition

document

imaging databases
can
get
huge
most save
images
permanently
store
1 1 1 1 1 0 0 0 0 0
1 1 0 0 0 1 1 1 1 0
1 1 0 0 0 0 0 1 0 1
1 1 0 0 0 0 0 1 0 1
1
2
3
4

remarques sur bag-of-words

Sa dimensionnalité est

souvent très élevée

Le tableau de données issus de bag-of-words est particulier:

il contient beaucoup de zéros

la réduction de dimension est un enjeu crucial

utiliser des représentation sous forme de sparse-vector pour économiser la mémoire

Principales applications

Extraction d'information

Indexation

Moteurs de recherche

Recherche d'information

Résumé automatique

Catégorisation de texte

Clustering de texte

Analyse de lien

Breve introduction au text mining

By Nicolas Rochet

Breve introduction au text mining

Cours 2019 -2020

  • 98