Humanités numériques
12/01/2018
Benjamin Hervy - Matthieu Quantin
Informatique et numérique
Qu'est-ce que le numérique ? Milad Doueihi, 2013
Informatique comme science
Informatique comme industrie
Informatique comme culture
Humanités numériques
Père Roberto Busa, jésuite et spécialiste de Thomas d'Aquin
Index Thomisticus en collaboration avec IBM
Première enquête philologique, 1949
→ Sciences du texte et de l'interprétation, science informatique
Éclatement de l'idée de texte
Numérisation patrimoniale
Lecture érudite et savante → conception quantitative de la preuve
Humanités numériques
Alan Turing et sa machine apprenante/pensante


Turing test, by Bilby - Own work, Public Domain
Article proposant un modèle humain et social aux machines et à leurs apprentissages
→ aléas et imprévus
Humanités numériques
Débats:
- tentation du quantitatif
- "raison computationnelle" (Bachimont, 2000), calcul arbitraire et intelligibilité des résultats
- mutations de l'écrit à l'ère numérique
A. Turing : « la recherche culturelle » = la transmission des techniques et des découvertes entre humains



pluridisciplinarité
transdisciplinarité
interdisciplinarité
Humanités numériques
PÉRIODISATIONS
Berry 2011, en 2 vagues:
- Les humanités se servent de l’efficacité des machines
- 1980+ (selon digital manifesto 2.0)
- transdisciplinarité
- base de données et textes
- close reading
- Les humanités numériques génèrent et interprètent des données
- computational turn
- mesurer la qualité des résultats
- distant reading
2010+
1980+
Humanités numériques
PÉRIODISATIONS
Burnard 2012, en 3 périodes:
- Litterary and Linguistic Computing (LCC):
- index, analyse quantitative
- histoire quantitative
- Humanities Computing (HC):
- réflexion sur les pratiques numériques en humanités
- grands débats et structuration en discipline
- standardisation
- Digital Humanities (HN):
- naissance du web
- distribution / captation
60-80
80-90
90+
« L’historien de demain sera programmeur ou ne sera plus »
Ladurie (1973)
→ transformation de l'acte même de lire
Humanités numériques
L'ESPOIR ET LE FUTUR ÉTERNEL
Rappel: « impératif philologique » (Vico, 1725):
la nécessité de restituer les conditions de production des savoirs dans leurs variations et leur inévitable
fragilité
Humanités numériques
L'ESPOIR ET LE FUTUR ÉTERNEL
Les optimistes, « le meilleur est à venir »:
- accompagner l'historien vers la programmation
- des "API" pour tout
- une humanité cognitivement augmentée
- l'expertise neutre dépendante de la machine
Rosnay (1995), Clavert (2013), Le Deuff (2014)...
Humanités numériques
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
- "Computer- aided literature studies have failed to have a significant impact on the field as a whole" (Olsen, 1993)
- "fantasme récurrent de la bibliothèque universelle" (Welger-Barboza, 2001)
- "une rencontre ratée entre une technique et une discipline" (Genet et Zorzi, 2011)
- "tarte à la crème des discours sur l’innovation à l’Université" (Mounier, 2017)
Humanités numériques
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
- boite noire (Drucker, 2011)
- biais épistémologiques (Drucker, 2011)
- difficulté de sourcer
- faibles interactions avec l'historien
Vague 2 de Berry (2011)
Les humanités numériques génèrent et interprètent des données (2010+)
= mirage?
Qu'est-ce qu'une donnée ?
Interprétable par l'humain vs. compréhensible par la machine

non-structurée vs. structurée (ex: csv)
Mastcam 100, NASA

Les données
ou plutôt:
les « construits » (Bruno Latour)
/
les « capta » (Johanna Drucker).
Parce que ce sont les sciences humaines qui
captent et construisent ces données
Qu'est-ce qu'une donnée ?


Nous identifions et interprétons les informations,
les machines non!

Qu'est-ce qu'une donnée ?
Qu'est-ce qu'une donnée ?
De l'importance de créer des chaînes de traitement de données
Traitement des données
- Captation/Numérisation
- Stockage
- Nettoyage/Pré-traitement
- Traitement (intégration/fusion)
- Analyse
- Visualisation / publication

Co-authorship network map of physicians publishing on hepatitis C, CC BY Andy Lamb


Captation/Numérisation
Captation/Numérisation

Creative Tools from Halmdstad, Sweden

Stockage
Stockage

Format libre vs. propriétaire
format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre
Loi pour la confiance dans l'économie numérique, 2004
Nommage
- Environnement technique (caractères)
- Document connu et identifiable
- Règle de nommage
Stockage
3 niveaux pour le stockage de donnée:
- Conserver → physique (train de bits)
- Assurer l'accès → format ouverts,
- Preserver l'intelligibilité → métadonnées





Stockage

Pré-traitement/Nettoyage

Open refine non blank cells, CC BY Tony Hirst

Pré-traitement/Nettoyage
Analyse
- Knowledge discovery
- Apprentissage machine
- Réseau de neurones



Tasks, CC BY NC xkcd
@tifa2up / medium.com / Image Classification using Deep Neural Networks

Visualisation

Des objets d'étude hétérogènes



Des objectifs variés





Des approches adaptées

Des approches adaptées

Des ressources inégales

(LREC map 2010)
Quelques projets
- Recital : transcription et analyse de registres comptables du XVIIIe
- Haruspex : extraction de connaissances d'un corpus d'entretiens
- Nantes1900 : histoire du port de Nantes
Mots-clés : fouille de textes, intégration de données, visualisation d'informations, gestion de connaissances
Recital

http://recital.univ-nantes.fr

Recital

Recital
Processus de crowdsourcing :
- profil des "workers"
- qualité des données : confiance
- transformation de modèle
- résolution d'entités
Estimation temps expert : 7400 heures
(pour les comptes quotidiens = 70% du corpus)

Recital

Titres :
- carnaval d'été
- amours champestres
- (divertissement)
Liste de "référence" :
Repertorio
Clarence D. Brenner
(fautes/doublons)
4e Du Carnaval d'Été et Le Divertissement Precedé dés amours champestres
Nettoyage
Résolution d'entités (N-grams + position)
Recital
Résultats (sur un échantillon vérifié) :
70% de précision
Les deux jumeaux de Bergame Werther et Charlotte Le Comte d'albert
- 'Le Comte d'Albert', 0.56
- 'Deux Jumeaux de Bergame', 0.55
- 'Werther et Charlotte', 0.52
Couverture : 90%, Sim. moy. : 0.54
[('les', 0.13), ('esd', 0.13), ('sde', 0.13), ('deu', 0.13) [...] ('alb', 0.13), ('lbe', 0.13), ('rt', 0.13), ('t', 0.13)]
- Calcul de similarité (cos) avec chaque titre de référence
- Position approximative dans la chaîne originale
- Vérification de la couverture totale
[Kondrak, 2005]
Haruspex




Haruspex
Du discours aux données...
... et inversement
Objectifs d'analyses:
- Proximité multi-échelle
- Intra/inter-corpus
- Multi-dimensionnel
- Contenu
- Co-occurrences
- Connectivité
- Anomalies
Ce n'est pas:
- du web sémantique
- un outil de formalisation des connaissances
- un outil de stockage
- ...
Haruspex
Entrée:
texte (brut/pdf, office, LateX, ...)
Sortie:
Multigraphe pondéré
- nœud = texte
- arc = occurrence

Haruspex
Fonctionne en 4 étapes

Haruspex
Topic modeling (bi-clustering)

Haruspex
Topic modeling (bi-clustering): le corpus UNESCO

Haruspex
Topic modeling (bi-clustering): le corpus UNESCO


Haruspex
Topic modeling (bi-clustering): le corpus UNESCO


Haruspex
Topic modeling (bi-clustering): le corpus UNESCO


Haruspex
Le corpus de Pierre Teissier
- Entretiens
- Chimie du solide / Materials Research
- Thèse (2007), livre(2013), articles.
format de fichier | odt |
structure interne (titre, sous-titre, etc.) | non |
nombre de documents | 41 |
nombre de mots | 339k |
nombre de mots après filtre | 87 316 |
nombre de lemmes différents | 9 884 |
moyenne du nb de mots par document | 8 268 |
écart-type du nb de mots par document | 4 837 |
Problématique générale
Identifier la naissance et la dispersion d’une
communauté scientifique.
Haruspex
Le corpus de Pierre Teissier
Forme extraite (exemples) | Nb d’occ. |
docs concernés | Thématique |
---|---|---|---|
Bronzes de vanadium | 26 | 5 | Chimie |
Chimie de coordination | 22 | 8 | Chimie |
Thèse de troisième cycle | 16 | 7 | France, Éducation |
Microscopie électronique | 63 | 20 | Physique |
Microscopie électronique à transmission à haute résolution | 3 | 2 | Physique |
Four solaire d’Odeillo | 3 | 4 | Industrie, Sciences |
Repêchage : Si non-homogène // Si trop commun // Si en disparition
Haruspex
Équivalence entre mots ou expressions

Haruspex
Équivalence entre mots ou expressions

Haruspex

Haruspex

C’est l’hypothèse qu’émet l’atlas : qu’un lien existe entre ce qui apparemment diffère au plus haut point. »
Georges Didi-Huberman (2011)
Atlas ou le gai savoir inquiet
Haruspex
Générer un point d'entrée

Haruspex
Point surprenant
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
alumine | 0.414 | 30 | 4 | 4 |
mat. réfractaires | 0.197 | 23 | 3 | 3 |
Daniel Vivien | 0.093 | 28 | 2 | 2 |
Vitry-sur-Seine | 0.062 | 50 | 3 | 6 |
Perez | 0.052 | 11 | 1 | 1 |
ferrites | 0.052 | 10 | 1 | 1 |
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
vanadium | 0.606 | 23 | 6 | 8 |
bronzes de tungstène | 0.511 | 9 | 5 | 4 |
John Goodenough | 0.509 | 19 | 4 | 5 |
verres fluorés | 0.421 | 55 | 2 | 19 |
bronzes de vanadium | 0.395 | 22 | 2 | 12 |
octaèdres | 0.375 | 19 | 2 | 12 |
Haruspex

Haruspex

Haruspex
Le corpus de Pierre Teissier

Haruspex
Le corpus de Pierre Teissier



Haruspex
Épistémologie pratique

Épistémologie pratique

Autres applications
Haruspex



Nantes1900


Outils et services
TGIR Huma-Num

Outils et services
https://www.huma-num.fr/services-et-outils/traiter
- Traitement de textes
- Bases de données
- SIG
- 2D, 3D
- Calcul intensif
Cours-M2-HST-HumaNum
By matthieuquantin
Cours-M2-HST-HumaNum
- 1,068