Humanités numériques

12/01/2018

Benjamin Hervy - Matthieu Quantin

Informatique et numérique

Qu'est-ce que le numérique ? Milad Doueihi, 2013

Informatique comme science

Informatique comme industrie

Informatique comme culture

Humanités numériques

Père Roberto Busa, jésuite et spécialiste de Thomas d'Aquin

Index Thomisticus en collaboration avec IBM

Première enquête philologique, 1949

→ Sciences du texte et de l'interprétation, science informatique

Éclatement de l'idée de texte

Numérisation patrimoniale

Lecture érudite et savante → conception quantitative de la preuve

Humanités numériques

Alan Turing et sa machine apprenante/pensante

Turing test, by Bilby - Own work, Public Domain

Article proposant un modèle humain et social aux machines et à leurs apprentissages

 

→ aléas et imprévus

Humanités numériques

Débats:

  • tentation du quantitatif
  • "raison computationnelle" (Bachimont, 2000), calcul arbitraire et intelligibilité des résultats
  • mutations de l'écrit à l'ère numérique

A. Turing : « la recherche culturelle » = la transmission des techniques et des découvertes entre humains

pluridisciplinarité

transdisciplinarité

interdisciplinarité

Humanités numériques

PÉRIODISATIONS

Berry 2011, en 2 vagues:

  1. Les humanités se servent de l’efficacité des machines
    • 1980+ (selon digital manifesto 2.0)
    • transdisciplinarité
    • base de données et textes
    • close reading
  2. Les humanités numériques génèrent et interprètent des données
    • computational turn
    • mesurer la qualité des résultats
    • distant reading

2010+

1980+

Humanités numériques

PÉRIODISATIONS

Burnard 2012, en 3 périodes:

  1. Litterary and Linguistic Computing (LCC):
    • index, analyse quantitative
    • histoire quantitative
  2. Humanities Computing (HC):
    • réflexion sur les pratiques numériques en humanités
    • grands débats et structuration en discipline
    • standardisation
  3. Digital Humanities (HN):
    • naissance du web
    • distribution / captation

60-80

80-90

90+

 « L’historien de demain sera programmeur ou ne sera plus »

Ladurie (1973)

→ transformation de l'acte même de lire

Humanités numériques

L'ESPOIR ET LE FUTUR ÉTERNEL

Rappel: « impératif philologique » (Vico, 1725):
la nécessité de restituer les conditions de production des savoirs dans leurs variations et leur inévitable
fragilité

Humanités numériques

L'ESPOIR ET LE FUTUR ÉTERNEL

Les optimistes, « le meilleur est à venir »:

  • accompagner l'historien vers la programmation
  • des "API" pour tout
  • une humanité cognitivement augmentée
  • l'expertise neutre dépendante de la machine

 

Rosnay (1995),  Clavert (2013), Le Deuff (2014)...

 

Humanités numériques

CRITIQUES

Société présentiste (Hartog, 1993), soumise à la technologie

  • "Computer- aided literature studies have failed to have a significant impact on the field as a whole" (Olsen, 1993)
  • "fantasme récurrent de la bibliothèque universelle" (Welger-Barboza, 2001)
  • "une rencontre ratée entre une technique et une discipline" (Genet et Zorzi, 2011)
  • "tarte à la crème des discours sur l’innovation à l’Université" (Mounier, 2017)

Humanités numériques

CRITIQUES

Société présentiste (Hartog, 1993), soumise à la technologie

  • boite noire (Drucker, 2011)
  • biais épistémologiques (Drucker, 2011)
  • difficulté de sourcer
  • faibles interactions avec l'historien 

Vague 2 de Berry (2011)

Les humanités numériques génèrent et interprètent des données (2010+)

= mirage?

Qu'est-ce qu'une donnée ?

Interprétable par l'humain vs. compréhensible par la machine

non-structurée vs. structurée (ex: csv) 

Mastcam 100, NASA

Les données

 

ou plutôt:


les « construits » (Bruno Latour)

/

les « capta » (Johanna Drucker).

 

Parce que ce sont les sciences humaines qui
captent et construisent ces données

Qu'est-ce qu'une donnée ?

Nous identifions et interprétons les informations,  
les machines non!

Qu'est-ce qu'une donnée ?

Qu'est-ce qu'une donnée ?

De l'importance de créer des chaînes de traitement de données

Traitement des données

  1. Captation/Numérisation
  2. Stockage
  3. Nettoyage/Pré-traitement
  4. Traitement (intégration/fusion)
  5. Analyse
  6. Visualisation / publication

Co-authorship network map of physicians publishing on hepatitis C, CC BY Andy Lamb

Captation/Numérisation

Captation/Numérisation

Creative Tools from Halmdstad, Sweden

Stockage

Stockage

Format libre vs. propriétaire

format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre

Loi pour la confiance dans l'économie numérique, 2004

Nommage

  • Environnement technique (caractères)
  • Document connu et identifiable
  • Règle de nommage

Stockage

3 niveaux pour le stockage de donnée:

  1. Conserver                        → physique (train de bits)
  2. Assurer l'accès                → format ouverts,
  3. Preserver l'intelligibilité → métadonnées

Stockage

Pré-traitement/Nettoyage

Open refine non blank cells, CC BY Tony Hirst

Pré-traitement/Nettoyage

Analyse

  • Knowledge discovery
  • Apprentissage machine
  • Réseau de neurones

Tasks, CC BY NC xkcd

@tifa2up / medium.com / Image Classification using Deep Neural Networks

Visualisation

Des objets d'étude hétérogènes

Des objectifs variés

Des approches adaptées

Des approches adaptées

Des ressources inégales

(LREC map 2010)

Quelques projets

  • Recital : transcription et analyse de registres comptables du XVIIIe
  • Haruspex : extraction de connaissances d'un corpus d'entretiens
  • Nantes1900 : histoire du port de Nantes

Mots-clés : fouille de textes, intégration de données, visualisation d'informations, gestion de connaissances

Recital

http://recital.univ-nantes.fr

Recital

Recital

Processus de crowdsourcing :

  • profil des "workers"
  • qualité des données : confiance
  • transformation de modèle
  • résolution d'entités

Estimation temps expert : 7400 heures

(pour les comptes quotidiens = 70% du corpus)

Recital

Titres :

  • carnaval d'été
  • amours champestres
  • (divertissement)

Liste de "référence" :

Repertorio

Clarence D. Brenner

(fautes/doublons)

4e Du Carnaval d'Été et Le Divertissement Precedé dés amours champestres

Nettoyage

Résolution d'entités (N-grams + position)

Recital

Résultats (sur un échantillon vérifié) :

70% de précision

Les deux jumeaux de Bergame Werther et Charlotte Le Comte d'albert

  • 'Le Comte d'Albert', 0.56
  • 'Deux Jumeaux de Bergame', 0.55
  • 'Werther et Charlotte', 0.52

Couverture : 90%, Sim. moy. : 0.54

[('les', 0.13), ('esd', 0.13), ('sde', 0.13), ('deu', 0.13) [...] ('alb', 0.13), ('lbe', 0.13), ('rt', 0.13), ('t', 0.13)]
  1. Calcul de similarité (cos) avec chaque titre de référence
  2. Position approximative dans la chaîne originale
  3. Vérification de la couverture totale
w_k = \frac{nb\_occ_k}{\sqrt{\sum_{i=0}^{n} nb\_occ_i^2 }}
wk=nb_occki=0nnb_occi2w_k = \frac{nb\_occ_k}{\sqrt{\sum_{i=0}^{n} nb\_occ_i^2 }}

[Kondrak, 2005]

Haruspex

Haruspex

Du discours aux données...

... et inversement

Objectifs d'analyses:

  • Proximité multi-échelle
  • Intra/inter-corpus
  • Multi-dimensionnel
  • Contenu
  • Co-occurrences
  • Connectivité
  • Anomalies

Ce n'est pas:

  • du web sémantique
  • un outil de formalisation des connaissances
  • un outil de stockage
  • ...

Haruspex

Entrée:

texte (brut/pdf, office, LateX, ...)

 

Sortie:

Multigraphe pondéré

              - nœud = texte

              - arc = occurrence

Haruspex

Fonctionne en 4 étapes

Haruspex

Topic modeling (bi-clustering)

Haruspex

Topic modeling (bi-clustering): le corpus UNESCO

Haruspex

Topic modeling (bi-clustering): le corpus UNESCO

Haruspex

Topic modeling (bi-clustering): le corpus UNESCO

Haruspex

Topic modeling (bi-clustering): le corpus UNESCO

Haruspex

Le corpus de Pierre Teissier

  • Entretiens
  • Chimie du solide / Materials Research
  • Thèse (2007), livre(2013), articles.
format de fichier odt
structure interne (titre, sous-titre, etc.) non
nombre de documents 41
nombre de mots 339k
nombre de mots après filtre 87 316
nombre de lemmes différents 9 884
moyenne du nb de mots par document 8 268
écart-type du nb de mots par document 4 837

Problématique générale
Identifier la naissance et la dispersion d’une
communauté scientifique.

Haruspex

Le corpus de Pierre Teissier

Forme extraite (exemples) ​Nb d’occ.

docs concernés Thématique
Bronzes de vanadium 26 5 Chimie
Chimie de coordination ​22 8 Chimie
Thèse de troisième cycle 16 7 France, Éducation
Microscopie électronique 63 20 Physique
Microscopie électronique à transmission à haute résolution 3 2 Physique
Four solaire d’Odeillo 3 4 Industrie, Sciences

Repêchage :  Si non-homogène  //   Si trop commun  //  Si en disparition

Haruspex

Équivalence entre mots ou expressions

Haruspex

Équivalence entre mots ou expressions

Haruspex

Haruspex

C’est l’hypothèse qu’émet l’atlas : qu’un lien existe entre ce qui apparemment diffère au plus haut point. »


Georges Didi-Huberman (2011)

Atlas ou le gai savoir inquiet

Haruspex

Générer un point d'entrée

Haruspex

Point surprenant

Mot-clé Poids tot A B
alumine 0.414 30 4 4
mat. réfractaires 0.197 23 3 3
Daniel Vivien 0.093 28 2 2
Vitry-sur-Seine 0.062 50 3 6
Perez 0.052 11 1 1
ferrites 0.052 10 1 1
Mot-clé Poids tot A B
vanadium 0.606 23 6 8
bronzes de tungstène 0.511 9 5 4
John Goodenough 0.509 19 4 5
verres fluorés 0.421 55 2 19
bronzes de vanadium 0.395 22 2 12
octaèdres 0.375 19 2 12

Haruspex

Haruspex

Haruspex

Le corpus de Pierre Teissier

Haruspex

Le corpus de Pierre Teissier

Haruspex

Épistémologie pratique

Épistémologie pratique

Autres applications

Haruspex

Nantes1900

Outils et services

TGIR Huma-Num

Outils et services

https://www.huma-num.fr/services-et-outils/traiter

 

  • Traitement de textes
  • Bases de données
  • SIG
  • 2D, 3D
  • Calcul intensif

Copy of Cours-M2-HST-HumaNum

By benjaminh

Copy of Cours-M2-HST-HumaNum

  • 1,160