Frédéric Clavert
historian. digital history. digital memory studies. join me on mastodon: @inactinique@mastodon.social
Petite introduction au logiciel IRaMuTeQ
Qu’est-ce que l’analyse de texte ?
Première approche d’IRaMuTeQ
Installation de R / Installation d’IRaMuTeQ / Que faire si les bibliothèques R ne s’installent pas?
Présentation des différents types d’analyse
Statistiques textuelles / Spécificité et AFC /Classification (méthode GNEPA) / Analyse de similitude / Nuage de mots
Un exemple: les délibérations Werner
Chercher/faire apparaître des informations à partir d'une masse importante de texte. Implique différents types d'outils informatiques.
Installation d’IRaMuTeQ (0.6 alpha 3)
Désinstaller IRaMuTeQ
Sous Windows: il y a une application "Désinstaller IRaMuTeQ)".
Supprimer le répertoire .iramuteq dans le répertoire utilisateur
Win: C:\Documents and Settings\Votre utilisateur\.iramuteq
Win 8: C:\Users\Votre utilisateur\.iramuteq
Mac: /Users/Votre utilisateur/.iramuteq
GNU/Linux: /home/Votre utilisateur/.iramuteq
Installer la nouvelle version d’iramuteq
Attention: les corpus version 0.5 ne peuvent être importés dans la version 0.6
Statistiques textuelles
UCI / Occurences / Formes / Moyenne d'occurences par forme / Hapax / Occurences par UCI
Spécificités et AFC
Analyse factorielle des correspondances / Hiérarchiser l'information contenue dans le texte.
Classification (GNEPA)
Permet de faire ressortir de grands thèmes en associant des groupes de mots.
Analyse de similitude
La manière dont les mots sont reliés ensemble (réseau de mots)
Nuage de mots
Simple manière de représenter les mots du textes en fonction de leur occurence.
La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc. (source: wikipedia).
**** *var1_mod1 *var2_mod3 -*thematique_1 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte -*thematique_2 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte **** *var1_mod2 *var2_mod1 -*thematique_1 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte -*thematique_2 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte exte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
Élaboration du corpus
Phase la plus délicate et la plus longue / Quels documents? / Nettoyage du corpus
Sélection des documents
Il est important de documenter son corpus.
(retravaillé avec wordle)
Petit corpus, conclusions non évidentes à tirer
Le nuage de mots n'apporte rien de spécifique
Le nuage de mot est toujours une première approche. Il est assez rare qu'il permette une réelle interprétation de la visualisation.
La classification est plus intéressante.
Les classes 1 et 2 sont fortement imbriquées et reliées (fonds de réserve / monnaie). Les classes 3 (États) et 4 (harmonisation) également. La classe 5 (procédure du comité / La Haye, etc) est plus éloignée.
L'analyse de similitude se structure autour de trois pôles
CEE, Monnaie (deux éléments dominants) et politique (commune).
Many Eyes (IBM)
Voyant Tools
By Frédéric Clavert
historian. digital history. digital memory studies. join me on mastodon: @inactinique@mastodon.social