L’apport du numérique aux sciences historiques:

exemple d’une analyse computationnelle
des archives Werner

 

Frédéric Clavert / LabEx EHNE
frederic@clavert.net / http://www.clavert.net/


Introduction

Numérique et informatique et histoire


  • Dès l'arrivée des ordinateurs en France
    • Furet / Daumard (Annales / 1959)
    • Garelli / Gardin (Annales / 1961)
    • Grandes thèses d’histoire économique (Le Roy Ladurie / 1966)


  • Deux élément ressortent dès les années 1960:
    • Gestion de l’information (Furet / Daumard, sources notariales)
    • Découvrir des éléments qui ne seraient pas visibles par simple lecture humaine (Garelli / Gardin).

Enjeux de l'informatique en histoire


  • Enjeux communs avec d’autres sciences,
  • Enjeux de la mise en réseau,
  • Déluge de données,
  • Comment trier ces données pour continuer à faire de l’histoire
  • Exemple
    • Administration Johnson (quelques dizaines de milliers de mémos)
    • Administration Clinton (plusieurs dizaines de millions de courriers électroniques)

Distant Reading


  • « Lecture distanciée » des sources primaires:


    • Toute recherche nécessite de prendre une distance avec ses sources, pour comprendre globalement un sujet;


    • Exemple de l’époque de Werner: difficile de comprendre le comité Werner (et son échec) sans le contexte des années 1960 (l’échec progressif de Bretton Woods) et des années 1970 (fin de Bretton Woods et grand changement de paradigme des années 1970, du keynésianisme vers monétarisme / théorie de l’offre).

Distant Reading et lecture computationnelle des sources primaires


« We know how to read books. It is time to learn how not to read them »

  • Franco Moretti (Stanford, histoire littéraire comparée): Graphs, Maps and Trees (Verso, 2007)


  • Faire une histoire de la littérature (du roman) des XVIIIe et XIXe siècle qui soit plus complète qu’une histoire des « grands textes »

Distant Reading et le corpus Werner


  • Appliquer les principes de la lecture distanciée au corpus Werner publiée par le CVCE,


  • En tirer des conclusions méthodologiques plus générales.


  • Deux grandes parties:

    • méthodologie employée

    • exposé des premiers résultats


I. Méthodologie

Qu’est-ce que l’analyse de texte?


  • On parle aussi de: fouille de texte / text analysis / text mining;


  • Approche statistique du texte;


  • Repose sur la cooccurence des mots dans des unités de texte d'environ 40 mots (compromis phrases / unités de 40 mots).


L’important travail sur le texte


  • Récupération


  • Formatage


  • Métadonnées

Limites méthodologiques


  • Sélection du corpus

  • Aspects linguistiques

  • Choix du programme

  • Qualité de l’OCR

  • Écriture manuscrite

Descriptif du corpus


  • 141 textes de 1969 à 1973 (du sommet de La Haye à la création du FECOM) divisés en 13111 segments (soit environ 36 mots / segments en moyenne);


  • 470685 mots, 28428 formes (lemmatisation);


  • 16 641 HAPAX (formes uniques, 58,54% des formes), représentant 3,54% des occurrences:
    • Soit beaucoup d’HAPAX, mais faible taux pour leur occurrences.


II. Résultats

Le nuage de mots

Wordle: Archives Werner

Classification

Profil 1 Profil 2 Profil 3 Profil 4 Profil 5 Profil 6
président étranger communauté étape terme marge
comité affaire économique premier moyen monnaie
gouverneur france monétaire union_economique_et_monetaire orientation dollar
commission français international réalisation consultation changer
werner ministre européen traiter politique_économique fluctuation
conseil europe politique progrès budget intervention
réunion république développement processus politique_budgétaire réduction
groupe clan union phase courir balancer
bruxelles ministère responsabilité final concours taux
séance peuple équilibre action conjoncturelle réserve
rapport àm problème politiques_économiques public intracommunautaires
communautés_européennes assemblée libre réaliser budgétaire marché
document soviétique cohésion mener procédure parité
finance parole monde rome coordination pays
luxembourg militaire intégration transition emploi cours
proposition afrique exercer stade social paiement
baron africain plan_national complet programme unir
décembre culturel institution accomplir politique rétrécissement
projet rapporteur circulation progressif préalable devise
juin tchad rôle entreprendre dépense milliard
ansiaux nation décisif domaine niveau excédent
expert uni recherche période recommandation bande
résolution assemblee transfert unification régulier parités
session langue marché_commun disposition structurelles banque

Classification

Classification


Comparaison

Comparaison entre le plan Delors et le plan Werner Many Eyes


Conclusions

Title