L’apport du numérique aux sciences historiques:
exemple d’une analyse computationnelle
des archives Werner
Frédéric Clavert / LabEx EHNE
frederic@clavert.net / http://www.clavert.net/
Introduction
Numérique et informatique et histoire
-
Dès l'arrivée des ordinateurs en France
-
Furet / Daumard (Annales / 1959)
-
Garelli / Gardin (Annales / 1961)
- Grandes thèses d’histoire économique (Le Roy Ladurie / 1966)
- Deux élément ressortent dès les années 1960:
- Gestion de l’information (Furet / Daumard, sources notariales)
-
Découvrir des éléments qui ne seraient pas visibles par simple lecture humaine (Garelli / Gardin).
Enjeux de l'informatique en histoire
- Enjeux communs avec d’autres sciences,
- Enjeux de la mise en réseau,
- Déluge de données,
- Comment trier ces données pour continuer à faire de l’histoire
- Exemple
- Administration Johnson (quelques dizaines de milliers de mémos)
-
Administration Clinton (plusieurs dizaines de millions de courriers électroniques)
Distant Reading
- « Lecture distanciée » des sources primaires:
- Toute recherche nécessite de prendre une distance avec ses sources, pour comprendre globalement un sujet;
- Exemple de l’époque de Werner: difficile de comprendre le comité Werner (et son échec) sans le contexte des années 1960 (l’échec progressif de Bretton Woods) et des années 1970 (fin de Bretton Woods et grand changement de paradigme des années 1970, du keynésianisme vers monétarisme / théorie de l’offre).
Distant Reading et lecture computationnelle des sources primaires
« We know how to read books. It is time to learn how not to read them »
- Franco Moretti (Stanford, histoire littéraire comparée): Graphs, Maps and Trees (Verso, 2007)
- Faire une histoire de la littérature (du roman) des XVIIIe et XIXe siècle qui soit plus complète qu’une histoire des « grands textes »
Distant Reading et le corpus Werner
-
Appliquer les principes de la lecture distanciée au corpus Werner publiée par le CVCE,
-
En tirer des conclusions méthodologiques plus générales.
-
Deux grandes parties:
-
méthodologie employée
-
exposé des premiers résultats
I. Méthodologie
Qu’est-ce que l’analyse de texte?
- On parle aussi de: fouille de texte / text analysis / text mining;
- Approche statistique du texte;
- Repose sur la cooccurence des mots dans des unités de texte d'environ 40 mots (compromis phrases / unités de 40 mots).
L’important travail sur le texte
- Récupération
- Formatage
- Métadonnées
Limites méthodologiques
-
Sélection du corpus
-
Aspects linguistiques
-
Choix du programme
-
Qualité de l’OCR
-
Écriture manuscrite
Descriptif du corpus
- 141 textes de 1969 à 1973 (du sommet de La Haye à la création du FECOM) divisés en 13111 segments (soit environ 36 mots / segments en moyenne);
- 470685 mots, 28428 formes (lemmatisation);
- 16 641 HAPAX (formes uniques, 58,54% des formes), représentant 3,54% des occurrences:
- Soit beaucoup d’HAPAX, mais faible taux pour leur occurrences.
II. Résultats
Classification
Profil 1 | Profil 2 | Profil 3 | Profil 4 | Profil 5 | Profil 6 |
---|---|---|---|---|---|
président | étranger | communauté | étape | terme | marge |
comité | affaire | économique | premier | moyen | monnaie |
gouverneur | france | monétaire | union_economique_et_monetaire | orientation | dollar |
commission | français | international | réalisation | consultation | changer |
werner | ministre | européen | traiter | politique_économique | fluctuation |
conseil | europe | politique | progrès | budget | intervention |
réunion | république | développement | processus | politique_budgétaire | réduction |
groupe | clan | union | phase | courir | balancer |
bruxelles | ministère | responsabilité | final | concours | taux |
séance | peuple | équilibre | action | conjoncturelle | réserve |
rapport | àm | problème | politiques_économiques | public | intracommunautaires |
communautés_européennes | assemblée | libre | réaliser | budgétaire | marché |
document | soviétique | cohésion | mener | procédure | parité |
finance | parole | monde | rome | coordination | pays |
luxembourg | militaire | intégration | transition | emploi | cours |
proposition | afrique | exercer | stade | social | paiement |
baron | africain | plan_national | complet | programme | unir |
décembre | culturel | institution | accomplir | politique | rétrécissement |
projet | rapporteur | circulation | progressif | préalable | devise |
juin | tchad | rôle | entreprendre | dépense | milliard |
ansiaux | nation | décisif | domaine | niveau | excédent |
expert | uni | recherche | période | recommandation | bande |
résolution | assemblee | transfert | unification | régulier | parités |
session | langue | marché_commun | disposition | structurelles | banque |