Mise en données des SHS

Mise en données du monde,
mise en données de l'histoire?

 

Frédéric Clavert / LabEx EHNE
frederic@clavert.net / @inactinique

Introduction

Qu'est-ce que la mise en données du monde?

« To datafy a phenomenon is to put it in a quantified format it can be tabulated and analysed ».

 

Mayer-Schönberger, Viktor, et Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work, and Think.
Boston: Houghton Mifflin Harcourt, 2013, p. 72.

Qu'est-ce que la mise en données du monde?

  • Antérieure à l'ère numérique,
    • Compilation des données sur les déplacements des bâtiments militaires états-uniens pour améliorer les routes navales (XIXe);
  • Mesure de toutes sortes d'éléments, y compris sans intérêt à première vue (=réutilisable à d'autres fins);
  • Grands ensembles de données (Big Data) vs. échantillonnage: le quantitatif entraîne un changement qualitatif;
  • Accélération aujourd'hui:
    • Numérisation,
    • Informatique (traitement).

Qu'est-ce que la mise en données du monde?

Exemples

  • Google Books: numérisation des livres permet leur mise en données avec Google Ngram Viewer;
  • GPS est la mise en données des lieux;
  • Les réseaux sociaux sur le web comme mise en données des relations sociales.

Pour les sciences historiques

  1. La mise en données des sources primaires et la notion de distant reading
  2. La mise en données des historiens et de leurs pratiques
  3. Flous et biais de la mise en données de l'histoire

I. Mise en données
des sources primaires

La mise en données des sources primaires

  • Tout peut potentiellement être mis en données;
  • Tout ce qui est mis en données peut devenir une source primaire pour l’historien.ne;
    • Ex: les réseaux sociaux produisent des données massives décrivant pratiques et phénomènes sociaux, vie quotidienne…
  • Numérisation des archives déjà existantes.

Que permet cette mise en données?
Lecture distante des sources

  • Franco Moretti, Graphs, maps and trees (Verso, 2007): ne pas lire les sources
  • Travaux des historiens reposent de plus en plus sur des sources numériques - d'ici 10 ans, premiers travaux entièrement fondés sur des sources électroniques devraient apparaître
  • Outils permettant alternance entre lecture distante / lecture proche
  • Ces outils permettront de faire face au "déluge de données"
    • 1959: François Furet, et Adeline Daumard. « Méthodes de l’Histoire sociale: les Archives notariales et la Mécanographie ». Annales ESC 14, nᵒ 4 (1959): 676‑693.
  • De croiser des données pour en faire ressortir des éléments non visibles par une lecture humaine
    • 1961: Paul Garelli, et Jean-Claude Gardin. « Étude par ordinateurs des établissements assyriens en Cappadoce ». Annales ESC 16, nᵒ 5 (1961): 837‑876.

Exemple de lecture distante des sources:

the declassification engine

II. Mise en données
des historiens

  • Lecture distante de l’historiographie via des outils Big Data;
  • Observer et capturer une historiographie «en train de se faire»: réseaux sociaux, blogs, etc;
  • Capturer et étudier nos pratiques.

Lecture distante de l'historiographie

Google Books / Google Ngram

La très grande majorité de nos publications nécessitent une étude historiographique préalable.

Ces études historiographiques sont, pour les sujets larges, souvent partielles:

  • Littérature trop abondante qu’il n’est pas facile d’embrasser dans sa totalité;
  • La barrière linguistique (et nationale);
  • Le temps...

MAIS tous nos ouvrages publiés sont numérisés dans les deux ans par Google. Google Ngram permet de les exploiter comme des données, de les analyser et d’en faire ressortir des éléments inconnus ou difficiles à rechercher.

Exemple du concept d'européanisation

Le concept d'européanisation est un concept à la mode (droit puis sciences politiques, aujourd'hui en histoire). Quand ce mot est-il apparu, dans quel contexte?

L’utilisation de Google Ngram permet:

  1. De voir à quand remontait, en Français, Allemand et Anglais, la (l’une des) première(s) utilisation du terme;
  2. De comprendre que ce terme est apparu d’abord en relation avec la colonisation;
  3. De constater que son usage explose à partir des années 1980, en lien avec la construction européenne.

 

Peu surprenant, mais obtenu en quelques minutes et non plusieurs mois de recherche.

Capturer l’historiographie en train de se faire?

Exemple de Twitter: observer des discussions en cours, notamment par l’intermédiaire d’un hashtag comme #histoire par exemple.

Via le hashtag #twitterstorians, on peut capturer une discussion entre historiens qui dure depuis plusieurs années. En ressort:

  • Les préoccupations des jeunes historien.ne.s (en premier lieu: les offres d'emploi);
  • Les parcours de diffusion de l’information historique.

On peut aller vers des historiographies plus précises – par exemple, l’histoire environnementale avec #envhist.

Capturer l’historiographie en train de se faire? (blogs)

  • Essor des blogs avec la montée en puissance de plateformes "académiques" (hypotheses.org);
  • De différentes natures - individuels, collectifs, autour d'un sujet de recherche, associatifs, plus institutionnels, etc.
  • Données captables (notamment par les flux RSS), et l’on peut les agréger dans une base de données ou sur un autre site.

 

  • Global perspectives on digital history (GPDH):
    • Vision rapide et globale de la pré-littérature académique en histoire numérique
    • Pourrait être appliquée à tous les domaines de l’histoire.

Capturer les pratiques des historiens:
exemple des conférences

  • "Mise en données" traditionnelle du colloque: publication des actes
  • Aujourd'hui: possibilité de capter les discussions et certaines relations sociales autour de ces colloques
  • Via sites web, présentations en ligne, discussions (parfois) sur les réseaux sociaux.


La collecte et la conservation de ces traces numériques nous aident à mieux connaître ce que pensent et discutent les participants d’une conférence.

III. Biais et flous
de la mise en données de l'histoire

Grandes interrogations sur la mise en données

  • En quoi sont-elles représentatives de la population?
  • Sont-elles exploitables?
  • Sont-elles accessibles?
  • Sont-elles pérennes?

Les flous de la mise en données de l'histoire

Exemple: Patrick Manning (Pittsburgh / histoire globale / big data)

Manning, Patrick, et Sanjana Ravi. «Cross-Disciplinary Theory in Construction of a World-Historical Archive». Journal of World-Historical Information 1, nᵒ 1 (2013): 15–39.

  • Utilisation de Big Data comme conséquence de l’histoire globale
  • obtenir un niveau de connaissance de l’expérience humaine englobant l’ensemble des échelles, du local vers le global

Le world historical dataverse

Data on the human experience at the global level. Dataverse collects data on social-scientific, health, and environmental data for the world as a whole for the past four or five centuries.

Dataverse a pour but de collecter et fusionner des ensembles de données pour pouvoir, à terme, les exploiter globalement.

Démarche

  1. Assembler les données
  2. Créer une archive historique unifiée
  3. Analyser les données mondialement.

Nombreuses ambiguïtés:

  • «to develop data and theory at global scale and over several centuries»: comment développer ces théories?
  • Souhaite une sorte de fusion des disciplines des sciences humaines et sociales, mais n'explicite pas les modalités de cette fusion.
  • Estime que le Big Data aura un rôle central, mais n'explicite pas ce rôle.

Illustre bien les biais de la mise en données «massive» (Big Data)

boyd, danah, et Kate Crawford. « CRITICAL QUESTIONS FOR BIG DATA: Provocations for a cultural, technological, and scholarly phenomenon ». Information, Communication & Society 15, nᵒ 5 (juin 2012): 662‑679. doi:10.1080/1369118X.2012.678878.

"We define Big Data as a cultural, technological, and scholarly phenomenon that rests on the interplay of:

  1. Technology: maximizing computation power and algorithmic accuracy to gather, analyze, link, and compare large data sets.
  2. Analysis: drawing on large data sets to identify patterns in order to make economic, social, technical, and legal claims.
  3. Mythology: the widespread belief that large data sets offer a higher form of intelligence and knowledge that can generate insights that were previously impossible, with the aura of truth, objectivity, and accuracy."

Autres biais

  • Toute base de données est une construction sociale reposant sur une hypothèse. Approche critique des données ne doit jamais être oubliée.
    • Owens, Trevor, et Fred Gibbs. « Hermeneutics of Data and Historical Writing ». In Writing History in the Digital Age. Consulté le 5 décembre 2013. http://writinghistory.trincoll.edu/data/gibbs-owens-2012-spring/.
  • L’état de transition, en termes de mise en données de l’histoire, peut engendrer des erreurs et des déséquilibres.
    • Mauvaise mise en données peut dévoyer toute une historiographie (Hitchcock, Tim. « Academic History Writing and Its Disconnects ». Journal of Digital Humanities Winter 2011. Web. 27 juin 2012.). / mes propres recherches sur la base d'un corpus au texte mal reconnu sur le comité Werner.
    • S'applique aussi aux sources natives: cf. le "like" de Facebook
    • Archives numérisées et disponibles en ligne utilisées aux dépens d’autres sources. (politique de la SDN en matière de paludisme).

Conclusion

  • De nombreux doutes subsistent: sur les outils, sur les méthodes, sur les données elles-mêmes;
  • Ces doutes ne doivent pas entraver la recherche méthodologique sur les interactions entre histoire et numérique;
  • Nécessité de trouver des réponses à ces doutes si l’on ne veut pas que les promesses de la mise en données ne se réduisent à la portion congrue.