Méthodologies numériques en sciences humaines et sociales

Frédéric Clavert (LabEx EHNE)

frederic@clavert.net

http://histnum.hypotheses.org

Introduction

Pourquoi un tel enseignement?

  • Numérisation discrète de nos pratiques
  • Pratiques numériques non explicitées
  • Induisant l'introduction de boîtes noires
  • Un problème de distanciation des "digital (facebook) natives"

Un exemple de boîte noire

Deux chercheurs peuvent faire une même requête et obtenir des résultats différents.

Déroulement de l'enseignement

  • 3 X 2 heures: 3 novembre / 12 janvier / 2 février (10-12h)
  • Contrôle continu
    • 10 janvier:
      • Votre sujet de recherche / stage
      • Une ou deux phrases résumant les possibilités des trois logiciels que l'on prendre pour exemple
      • Un cas d'utilisation de ces logiciels pour vos recherches/stage
    • 1er février: une expérience d'utilisation d'un des trois outil

Plan

  • La mise en données du monde et les sciences humaines et sociales
  • Le rapport aux sources
  • Le rapport à la narration
  • Des exemples d'outils

I/ La mise en données
du monde

Les Humanités numériques
en contexte

Mise en données du monde?

 

«To datafy a phenomenon is to put it in a quantified format it can be tabulated and analysed »

 

Mayer-Schönberger, Viktor, et Kenneth Cukier.
Big Data: A Revolution That Will Transform How We Live, Work, and Think.
Boston: Houghton Mifflin Harcourt, 2013, p. 72.

Qu'est-ce que la mise en données du monde?

  • Antérieure à l'ère numérique,
    • Compilation des données sur les déplacements des bâtiments militaires états-uniens pour améliorer les routes navales (XIXe);
  • Mesure de toutes sortes d'éléments, y compris sans intérêt à première vue (=réutilisable à d'autres fins);
  • Grands ensembles de données (Big Data) vs. échantillonnage: le quantitatif entraîne un changement qualitatif;
  • Accélération aujourd'hui: Numérisation / Informatique (traitement) / mise en reseau.

Qu'est-ce que la mise en données du monde?

Exemples

  • Google Books: numérisation des livres permet leur mise en données avec Google Ngram Viewer;
  • GPS est la mise en données des lieux;
  • Les réseaux sociaux sur le web comme mise en données des relations sociales.

La mise en données des sources primaires

  • Tout peut potentiellement être mis en données;
  • Tout ce qui est mis en données peut devenir une source primaire pour l’historien.ne;
    • Ex: les réseaux sociaux produisent des données massives décrivant pratiques et phénomènes sociaux, vie quotidienne…
  • Numérisation des archives déjà existantes.

La mise en données des SHS,
une nouveauté?

  • Cas de l'histoire
    • Furet / Daumard: grande quantité d'informations (Annales, 1959)
    • Garelli: croiser les données pour faire émerger de nouvelles informations (Annales, 1961)

Chercheur contemplant une mer de données

 

 

David K. Friedrich,
Der Wanderer über dem Nebelmeer, 1817

Inflation de l'information
et des sources

  • Exemple donné par Dan Cohen (CHNM / Digital Public Library of America)
    • Administration Johnson: quelques dizaine de milliers d'archives
    • Administration Clinton: plusieurs millions de mails

Croisement des sciences informatiques et des sciences humaines et sociales

  • Des linguistic computing aux Digital Humanities
  • Usage des ordinateurs et de leurs capacités de calcul
  • Mise en réseau de ces ordinateurs
    • Passage aux Digital Humanities
  • Et surtout...

...l'émergence du Big Data

  • Bien sûr pour l'histoire contemporaine / l'histoire à venir
  • Mais pour les autres périodes?
    • Patrick Manning: Big data in history

II/ Un nouveau rapport aux sources?

Le goût de l'archive
est-il toujours le même?

Arlette Farge décrit le rapport de l'historien.ne à l'archive. Le long travail de copiste. Une relation très intime au document.

Cette relation est perturbée dès le centre d'archives (APN).

Trouver les sources

Critiquer les sources

Éviter le risque de l'«ordre illusoire»

Milligan Ian, « Illusionary Order: Online Databases, Optical Character Recognition, and Canadian History, 1997–2010 », Canadian Historical Review, 1 décembre 2013, vol. 94, nᵒ 4, pp. 540‑569.

  • Autorité illusoire par le nombre.
  • Déclin des journaux non numérisés.
  • Concentration sur les lieux les plus concernés par les journaux numérisés

Problème-clé de l'OCR

Exemple: Corpus Werner

Lire les sources

Lecture distante des sources

  • Franco Moretti, Graphs, maps and trees (Verso, 2007): ne pas lire les sources
  • Travaux des historiens reposent de plus en plus sur des sources numériques - d'ici 10 ans, premiers travaux entièrement fondés sur des sources électroniques devraient apparaître
  • Outils permettant alternance entre lecture distante / lecture proche

Visualiser les sources

III/ Quelle narration
de l'histoire?

La fin du livre?

Tim Hitchcock

À défaut de fin du livre, diversification des modes de narration de l'histoire

La narration et la source

Notamment par un rapport différence entre source / narration de l'histoire

 

ex: http://www.cvce.eu/

La communication scientifique

ou la mise en données des chercheurs

  • Ouvrir l'atelier du chercheur (carnets de recherche, colloques ubiquitaires, etc)
  • Lecture distante de l’historiographie via des outils Big Data;
  • Observer et capturer une historiographie «en train de se faire»: réseaux sociaux, blogs, etc;
  • Capturer et étudier nos pratiques.

Lecture distante de l'historiographie

Google Books / Google Ngram

La très grande majorité de nos publications nécessitent une étude historiographique préalable.

Ces études historiographiques sont, pour les sujets larges, souvent partielles:

  • Littérature trop abondante qu’il n’est pas facile d’embrasser dans sa totalité;
  • La barrière linguistique (et nationale);
  • Le temps...

MAIS tous nos ouvrages publiés sont numérisés dans les deux ans par Google. Google Ngram permet de les exploiter comme des données, de les analyser et d’en faire ressortir des éléments inconnus ou difficiles à rechercher.

Exemple du concept d'européanisation

Le concept d'européanisation est un concept à la mode (droit puis sciences politiques, aujourd'hui en histoire). Quand ce mot est-il apparu, dans quel contexte?

L’utilisation de Google Ngram permet:

  1. De voir à quand remontait, en Français, Allemand et Anglais, la (l’une des) première(s) utilisation du terme;
  2. De comprendre que ce terme est apparu d’abord en relation avec la colonisation;
  3. De constater que son usage explose à partir des années 1980, en lien avec la construction européenne.

Peu surprenant, mais obtenu en quelques minutes et non plusieurs mois de recherche.

Capturer l’historiographie en train de se faire?

Exemple de Twitter: observer des discussions en cours, notamment par l’intermédiaire d’un hashtag comme #histoire par exemple.

Via le hashtag #twitterstorians, on peut capturer une discussion entre historiens qui dure depuis plusieurs années. En ressort:

  • Les préoccupations des jeunes historien.ne.s (en premier lieu: les offres d'emploi);
  • Les parcours de diffusion de l’information historique.

On peut aller vers des historiographies plus précises – par exemple, l’histoire environnementale avec #envhist.

Capturer l’historiographie en train de se faire? (blogs)

  • Essor des blogs avec la montée en puissance de plateformes "académiques" (hypotheses.org);
  • De différentes natures - individuels, collectifs, autour d'un sujet de recherche, associatifs, plus institutionnels, etc.
  • Données captables (notamment par les flux RSS), et l’on peut les agréger dans une base de données ou sur un autre site.
  • Global perspectives on digital history (GPDH):
    • Vision rapide et globale de la pré-littérature académique en histoire numérique
    • Pourrait être appliquée à tous les domaines de l’histoire.

Capturer les pratiques des historiens:
exemple des conférences

  • "Mise en données" traditionnelle du colloque: publication des actes
  • Aujourd'hui: possibilité de capter les discussions et certaines relations sociales autour de ces colloques
  • Via sites web, présentations en ligne, discussions (parfois) sur les réseaux sociaux.


La collecte et la conservation de ces traces numériques nous aident à mieux connaître ce que pensent et discutent les participants d’une conférence.

 

http://hawksey.info/tagsexplorer/?key=0Ar9nMIZ-QCxSdHhfTzI3bWpzM01jeDlxVC1aNVozdlE&sheet=oaw

Exemple d'outils

  • Zotero
  • Iramuteq
  • Gephi

Conclusions

Le retour de la longue durée?

  • The History Manifesto
  • Big data in history

Retour qui sous-entend un nouveau rôle
pour l'historien

L'émergence
de l'histoire publique?

Quels risques?

  • Biais induis par une inégale numérisation
    • Ian Milligan
    • Le choléra
  • Biais induis par une mauvais ou incomplète mise en données
    • Pierre Werner
  • L'oubli du particulier?
  • Le "problème russe"
Made with Slides.com