Humanités numériques

12/01/2018

Benjamin Hervy - Matthieu Quantin

Informatique et numérique

Qu'est-ce que le numérique ? Milad Doueihi, 2013

Informatique comme science

Informatique comme industrie

Informatique comme culture

Humanités numériques

Père Roberto Busa, jésuite et spécialiste de Thomas d'Aquin

Index Thomisticus en collaboration avec IBM

Première enquête philologique, 1949

→ Sciences du texte et de l'interprétation, science informatique

Éclatement de l'idée de texte

Numérisation patrimoniale

Lecture érudite et savante → conception quantitative de la preuve

Humanités numériques

Alan Turing et sa machine apprenante/pensante

Turing test, by Bilby - Own work, Public Domain

Article proposant un modèle humain et social aux machines et à leurs apprentissages

 

→ aléas et imprévus

Humanités numériques

Débats:

  • tentation du quantitatif
  • "raison computationnelle" (Bachimont, 2000), calcul arbitraire et intelligibilité des résultats
  • mutations de l'écrit à l'ère numérique

A. Turing : « la recherche culturelle » = la transmission des techniques et des découvertes entre humains

pluridisciplinarité

transdisciplinarité

interdisciplinarité

Humanités numériques

PÉRIODISATIONS

Berry 2011, en 2 vagues:

  1. Les humanités se servent de l’efficacité des machines
    • 1980+ (selon digital manifesto 2.0)
    • transdisciplinarité
    • base de données et textes
    • close reading
  2. Les humanités numériques génèrent et interprètent des données
    • 2010+
    • computational turn
    • mesurer la qualité des résultats
    • distant reading

Humanités numériques

PÉRIODISATIONS

Burnard 2012, en 3 vagues:

  1. Litterary and Linguistic Computing (LCC): 60-80
    • index, analyse quantitative
    • histoire quantiative
  2. Humanities Computing (HC): 80-90
    • réflexion sur les pratiques numériques en humanités
    • grands débats et structuration en discipline
    • standardisation
  3. Digital Humanities (HN): 90+
    • naissance du web
    • distribution / captation

 « L’historien de demain sera programmeur ou ne sera plus »

Ladurie (1973)

Humanités numériques

L'ESPOIR ET LE FUTUR ÉTERNEL

Rappel: « impératif philologique » (Vico, 1725):
la nécessité de restituer les conditions de production des savoirs dans leurs variations et leur inévitable
fragilité

Humanités numériques

L'ESPOIR ET LE FUTUR ÉTERNEL

Les optimistes, « le meilleur est à venir »:

  • accompagner l'historien vers le programmation
  • des "API" pour tout
  • une humanité cognitivement augmentée
  • l'expertise neutre dépendante de la machine

 

Rosnay (1995),  Clavert (2013), Le Deuff (2014)...

 

Humanités numériques

CRITIQUES

Société présentiste (Hartog, 1993), soumise à la technologie

  • Computer- aided literature studies have failed to have a significant impact on the field as a whole (Olsen, 1993)
  • fantasme récurrent de la bibliothèque universelle (Welger-Barboza, 2001)
  • une rencontre ratée entre une technique et une discipline (Genet et Zorzi, 2011)
  • tarte à la crème des discours sur l’innovation à l’Université (Mounier, 2017)

Humanités numériques

CRITIQUES

Critiques de fond

  • boite noire (Drucker, 2011)
  • biais épistémologiques (Drucker, 2011)
  • difficulté de sourcer
  • faibles interactions avec l'historien

 

Vague 2 de Berry (2011)

Les humanités numériques génèrent et interprètent des données (2010+)

= mirage?

Qu'est-ce qu'une donnée ?

Interprétable par l'humain vs. compréhensible par la machine

Donnée structurée (csv) vs. non-structurée

Mastcam 100, NASA

Traitement des données

  • Captation/Numérisation
  • Stockage
  • Nettoyage/Pré-traitement
  • Traitement (intégration/fusion)
  • Analyse
  • Visualisation

Co-authorship network map of physicians publishing on hepatitis C, CC BY Andy Lamb

Captation/Numérisation

Creative Tools from Halmdstad, Sweden

Stockage

Format libre vs. propriétaire

format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre

Loi pour la confiance dans l'économie numérique, 2004

Nommage

  • Environnement technique (caractères)
  • Document connu et identifiable
  • Règle de nommage

Pré-traitement/Nettoyage

Open refine non blank cells, CC BY Tony Hirst

Analyse

  • Knowledge discovery
  • Apprentissage machine
  • Réseau de neurones

Tasks, CC BY NC xkcd

@tifa2up / medium.com / Image Classification using Deep Neural Networks

Visualisation

Des objets d'étude hétérogènes

Des objectifs variés

Des approches adaptées

Quelques projets

  • Nantes1900 : histoire du port de Nantes
  • Haruspex : extraction de connaissances d'un corpus d'entretiens
  • Recital : transcription et analyse de registres comptables du XVIIIe

Mots-clés : fouille de textes, intégration de données, visualisation d'informations, gestion de connaissances

Nantes1900

Haruspex

Recital

http://recital.univ-nantes.fr

Recital

Recital

Processus de crowdsourcing :

  • profil des "workers"
  • qualité des données : confiance
  • transformation de modèle
  • résolution d'entités

Estimation temps expert : 7400 heures

(pour les comptes quotidiens = 70% du corpus)

Recital

Titres :

  • carnaval d'été
  • amours champestres
  • (divertissement)

Liste de "référence" :

Repertorio

Clarence D. Brenner

(fautes/doublons)

4e Du Carnaval d'Été et Le Divertissement Precedé dés amours champestres

Nettoyage

Résolution d'entités (N-grams + position)

Recital

Résultats (sur un échantillon vérifié) :

70% de précision

Les deux jumeaux de Bergame Werther et Charlotte Le Comte d'albert

  • 'Le Comte d'Albert', 0.56
  • 'Deux Jumeaux de Bergame', 0.55
  • 'Werther et Charlotte', 0.52

Couverture : 90%, Sim. moy. : 0.54

[('les', 0.13), ('esd', 0.13), ('sde', 0.13), ('deu', 0.13) [...] ('alb', 0.13), ('lbe', 0.13), ('rt', 0.13), ('t', 0.13)]
  1. Calcul de similarité (cos) avec chaque titre de référence
  2. Position approximative dans la chaîne originale
  3. Vérification de la couverture totale
w_k = \frac{nb\_occ_k}{\sqrt{\sum_{i=0}^{n} nb\_occ_i^2 }}
wk=nb_occki=0nnb_occi2w_k = \frac{nb\_occ_k}{\sqrt{\sum_{i=0}^{n} nb\_occ_i^2 }}

[Kondrak, 2005]

Outils et services

TGIR Huma-Num

Outils et services

https://www.huma-num.fr/services-et-outils/traiter

 

  • Traitement de textes
  • Bases de données
  • SIG
  • 2D, 3D
  • Calcul intensif
Made with Slides.com