Analyse de texte


Petite introduction au logiciel IRaMuTeQ

Sommaire

Qu’est-ce que l’analyse de texte ?


Première approche d’IRaMuTeQ

Installation de R / Installation d’IRaMuTeQ / Que faire si les bibliothèques R ne s’installent pas?


Présentation des différents types d’analyse

Statistiques textuelles / Spécificité et AFC /Classification (méthode GNEPA) / Analyse de similitude / Nuage de mots


Un exemple: les délibérations Werner

Analyse de texte?

 

  • Text mining / Text data mining / Text analytics
  • Approche statistique du texte



Chercher/faire apparaître des informations à partir d'une masse importante de texte. Implique différents types d'outils informatiques.

Première approche d'IRaMuTeQ


  • Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires (IRaMuTeQ)




  • Implique ainsi l’installation de R et du language python. Compatibles avec les principaux systèmes d’opération.

Installation


Installation de R
  • Mac / Windows / Linux
  • Il est recommandé d’installer la version 2.15.2 ou 2.15.3, pas la version la plus récente (3). Pour Ubuntu, iramuteq a été testé avec la version des dépôts.


Installation d’IRaMuTeQ (0.6 alpha 3)

Premier lancement d'IRaMuTeQ

    IRaMuTeQ va installer les libraries R dont il a besoin et leurs dépendances Pour s’assurer que cela a marché: Edition -> Préférences (Iramuteq -> préférences sous Mas Os X) et cliquez sur "Vérifier l'installation".

    Si cela n’a pas marché
    Il faudra lancer R et installer les libraries « à la main » avec code de type: install.packages(). Libraries nécessaires: ca, rgl, ape, proxy, gee, igraph, wordcloud, irlba. Ex: install.packages("proxy")
      Windows 8
      Il faut indiquer à IRaMuTeQ le chemin vers R (Edition > Préférence > Chemin de R)

      Mise à jour d’IRaMuTeQ


      Désinstaller IRaMuTeQ
      Sous Windows: il y a une application "Désinstaller IRaMuTeQ)".

      Supprimer le répertoire .iramuteq dans le répertoire utilisateur

      Win: C:\Documents and Settings\Votre utilisateur\.iramuteq
      Win 8: C:\Users\Votre utilisateur\.iramuteq
      Mac: /Users/Votre utilisateur/.iramuteq
      GNU/Linux: /home/Votre utilisateur/.iramuteq

      Installer la nouvelle version d’iramuteq
      Attention: les corpus version 0.5 ne peuvent être importés dans la version 0.6

      Les différents types d’analyse


      Statistiques textuelles

      UCI / Occurences / Formes / Moyenne d'occurences par forme / Hapax / Occurences par UCI

      Spécificités et AFC

      Analyse factorielle des correspondances / Hiérarchiser l'information contenue dans le texte.

      Classification (GNEPA)
      Permet de faire ressortir de grands thèmes en associant des groupes de mots.

      Analyse de similitude
      La manière dont les mots sont reliés ensemble (réseau de mots)

      Nuage de mots
      Simple manière de représenter les mots du textes en fonction de leur occurence.

      Lemmatisation


      La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc. (source: wikipedia).

      Un exemple: les délibérations Werner



      Préparer le corpus


      Le formatage du corpus de textes

      • Tous les mettre dans le même fichier (.TXT / UTF-8)
      • Chaque texte commence par ****
      • **** peut être suivi d’une série de variables étoilées séparées par un espace
      • À l’intérieur des textes, on peut introduire des thématiques (commençant par -*)
      • Variables et thématiques ne contiennent ni espaces ni caractères spéciaux.
      • Variables et thématiques ne sont pas obligatoires. Elles peuvent servir sur des corpus assez larges pour affiner les analyses (voir plus loin).

      Contrainte:
      iramuteq gère beaucoup de langues, mais le corpus doit être dans une seule langue à la fois.

      Préparer le corpus



      **** *var1_mod1 *var2_mod3
      
      -*thematique_1
      
      texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
      
      -*thematique_2
      
      texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
      
      **** *var1_mod2 *var2_mod1
      
      -*thematique_1
      
      texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
      
      -*thematique_2
      
      texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte  exte texte texte texte texte texte texte texte texte texte texte
      texte texte texte texte texte texte texte texte texte texte texte

      Le corpus des délibérations du comité Werner

      1. Monnet, Jean. « Lettre de Jean Monnet à Pierre Werner (Paris, 26 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/3b214683-5452-4165-ba10-14485c64f79c/publishable_fr.pdf.
      2. « Communication de la Commission sur l’élaboration d’un plan par étapes vers une Union économique et monétaire (Bruxelles, 27 février 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2012/2/15/a167b413-bab9-4be9-a461-635db9031b3f/publishable_fr.pdf.
      3. « Documents de travail de la deuxième réunion du groupe Werner (Bruxelles, 7 avril 1970) », s. d.
      4. « Documents de travail de la quatrième réunion du groupe Werner (Kirchberg, 14 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/7/5/5dba855f-b914-45ac-88fb-54b09d7f0bb9/publishable_fr.pdf.
      5. « Documents de travail de la troisième réunion du groupe Werner (Rome, 30 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/7/1/481d411f-ae1d-431b-8635-4064c89e58e6/publishable_fr.pdf.
      6. « Lettre de Gaston Eyskens à Willy Brandt (Bruxelles, 15 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/6/28/95b8a971-ef3e-44b3-8b29-745f199fe096/publishable_fr.pdf.
      7. « Lettre du baron Snoy et d’Oppuers à H.J. Witteveen (Bruxelles, 15 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/6/28/32eebe63-7ddb-41ec-997a-57b6dc3b90ab/publishable_fr.pdf.
      8. « Lettre et annexe relative aux aspects juridiques et techniques d’une mise en commun des droits de tirage spéciaux adressées par le baron Hubert Ansiaux à Pierre Werner (Bruxelles, 22 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2012/11/19/96ae2f55-b950-49d2-a7b1-164f334a3009/publishable_fr.pdf.
      9. « Note de Bernard Clappier sur les actions communes à entreprendre en matière monétaire dans la première phase de l’unification européenne (Bruxelles, 10 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/9c6ec984-952d-4efa-8746-644fde06f757/publishable_fr.pdf.
      10. « Note de G. Brouwers sur la méthode de réalisation d’une Union économique et monétaire (Bruxelles, 3 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/3e298fe7-d1f7-481b-9515-b2c91c7283e9/publishable_fr.pdf.
      11. « Note de Gaetano Stammati sur la réalisation d’une Union économique et monétaire (Bruxelles, 7 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/0e5c971d-8521-427e-adcf-576a37aec017/publishable_fr.pdf.
      12. « Note de Johann-Baptist Schöllhorn sur l’union économique comme fondement de l’union monétaire (Bruxelles, 6 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/afc6e984-6934-4378-a1f3-7ce0f4a79b5b/publishable_fr.pdf.
      13. « Note de Ugo Mosca sur l’état de l’Union économique et monétaire à l’issue du plan par étapes (Bruxelles, 3 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/ca6836ed-0515-4317-bee1-0e10d68b7b0b/publishable_fr.pdf.
      14. « Note du groupe Werner sur l’instauration de l’Union économique et monétaire (Bruxelles, 21 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/6/15/f5596721-3add-4366-bfa8-ad3e147d4b45/publishable_fr.pdf.
      15. « Note manuscrite de Pierre Werner sur la mise en place d’une Union économique et monétaire, préparatoire à la réunion du groupe ad hoc du 20 mai 1970 – Transcription ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2012/10/30/acd5c592-b467-4a66-86e5-ebbb49600a50/publishable_fr.pdf.
      16. « Note technique sur le fonctionnement d’un fonds européen de régularisation des changes (Bruxelles, 24 avril 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/6/2/bcf9d0ad-87b6-47d6-ba8a-c87935716b05/publishable_fr.pdf.
      17. « Projet de conclusion pour le rapport intérimaire au Conseil et à la Commission sur la réalisation par étapes de l’Union économique et monétaire (14 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/6/28/5249f33e-d60c-45bf-8028-1efa7f2dafc9/publishable_fr.pdf.
      18. « Projet de conclusion pour le rapport intérimaire au Conseil et à la Commission sur la réalisation par étapes de l’Union économique et monétaire (14 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/6/28/5249f33e-d60c-45bf-8028-1efa7f2dafc9/publishable_fr.pdf.
      19. « Projet de rapport au Conseil et à la Commission concernant l’instauration par étapes de l’Union économique et monétaire (Bruxelles, 11 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/52a25144-4460-4462-bd19-96f4b8eb2af2/publishable_fr.pdf.
      20. « Télex de Hans Tietmeyer adressé au secrétariat du groupe Werner (25 mai 1970) ». Consulté le avril 4, 2013. http://www.cvce.eu/content/publication/2010/8/23/92d4a75c-5b69-465c-b340-c703d6d52dfc/publishable_fr.pdf.

      Description du corpus


      Élaboration du corpus

      Phase la plus délicate et la plus longue / Quels documents? / Nettoyage du corpus

      Sélection des documents

      • Tributaire d’une sélection précédente (celle d’Elena)
      • Monolingue: sous-représentation probable du point de vue allemand
      • On ne retrouve pas le même type de documents en fonction des réunions
      • Intégré les documents internes au groupe et quelques documents externes (lettre de Monnet à Werner)
      • Pas de documents institutionnels. Pas le rapport intérimaire (ni ses brouillons) (car ne révèle pas les débats – les brouillons le font, mais dans les notes manuscrites, non retranscrites).


      Il est important de documenter son corpus.

      Résultats



      Nuage de mots



      (retravaillé avec wordle)

      Classification

      Analyse de similitude

       
      (retravaillé avec gephi)

      Conclusion

      Petit corpus, conclusions non évidentes à tirer


      Le nuage de mots n'apporte rien de spécifique

      Le nuage de mot est toujours une première approche. Il est assez rare qu'il permette une réelle interprétation de la visualisation.


      La classification est plus intéressante.

      Les classes 1 et 2 sont fortement imbriquées et reliées (fonds de réserve / monnaie). Les classes 3 (États) et 4 (harmonisation) également. La classe 5 (procédure du comité / La Haye, etc) est plus éloignée.


      L'analyse de similitude se structure autour de trois pôles

      CEE, Monnaie (deux éléments dominants) et politique (commune).

      Autres outils


      Many Eyes (IBM)

      Voyant Tools

      Analyse de texte

      By Frédéric Clavert

      Analyse de texte

      • 5,890