Humanités numériques
Données et traitement(s)
Benjamin Hervy
IR - Chercheur associé Centre François Viète
benjamin.hervy@univ-nantes.fr
05/03/24 - École Centrale de Nantes
Informatique et numérique
Qu'est-ce que le numérique ? Milad Doueihi, 2013
Informatique comme science
Informatique comme industrie
Informatique comme culture
Humanités numériques
Humanités numériques
(Tentative de) définition : ThatCamp 2010- Manifeste
« Pour nous, les digital humanities concernent l’ensemble des Sciences humaines et sociales, des Arts et des Lettres. Les digital humanities ne font pas table rase du passé. Elles s’appuient, au contraire, sur l’ensemble des paradigmes, savoir-faire et connaissances propres à ces disciplines, tout en mobilisant les outils et les perspectives singulières du champ du numérique. Les digital humanities désignent une transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des sciences humaines et sociales. »
Champs disciplinaires
- Littérature : l’Index Thomisticus (Roberto Busa) de la Somme théologique de Thomas d’Aquin
- Linguistique computationelle : TAL, lexicométrie
- Linguistique de corpus : Frantext, 4250 textes, base pour le Trésor de la Langue Française
- Histoire (quantitative), Archéologie, Anthropologie
- Géographie et Sociologie : SIG, Gephi
Humanités numériques
Père Roberto Busa, jésuite et spécialiste de Thomas d'Aquin
Index Thomisticus en collaboration avec IBM
Première enquête philologique, 1949
→ Sciences du texte et de l'interprétation, science informatique
Éclatement de l'idée de texte
Numérisation patrimoniale
Lecture érudite et savante → conception quantitative de la preuve
Humanités numériques
Alan Turing et sa machine apprenante/pensante
Turing test, by Bilby - Own work, Public Domain
Article proposant un modèle humain et social aux machines et à leurs apprentissages
(≠ apprentissage automatique)
→ aléas et imprévus
Humanités numériques
PÉRIODISATIONS
Berry 2011, en 2 vagues:
- Les humanités se servent de l’efficacité des machines
- 1980+ (selon digital manifesto 2.0)
- transdisciplinarité
- base de données et textes
- close reading
- Les humanités numériques génèrent et interprètent des données
- computational turn
- mesurer la qualité des résultats
- distant reading
2010+
1980+
Humanités numériques
PÉRIODISATIONS
Burnard 2012, en 3 périodes:
- Litterary and Linguistic Computing (LCC):
- index, analyse quantitative
- histoire quantitative
- Humanities Computing (HC):
- réflexion sur les pratiques numériques en humanités
- grands débats et structuration en discipline
- standardisation
- Digital Humanities (HN):
- naissance du web
- distribution / captation
60-80
80-90
90+
« L’historien de demain sera programmeur ou ne sera plus »
Emmanuel Leroy-Ladurie, 1968
Ladurie (1973)
→ transformation de l'acte même de lire
Humanités numériques
L'ESPOIR ET LE FUTUR ÉTERNEL
Rappel: « impératif philologique » (Vico, 1725): la nécessité de restituer les conditions de production des savoirs dans leurs variations et leur inévitable fragilité
Assurer la qualité avant la quantité
Humanités numériques
L'ESPOIR ET LE FUTUR ÉTERNEL
Les optimistes, « le meilleur est à venir »:
- accompagner l'historien vers la programmation
- des APIs pour tout
- une humanité cognitivement augmentée
- l'expertise neutre dépendante de la machine
Rosnay (1995), Clavert (2013), Le Deuff (2014)...
Humanités numériques
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
- "Computer- aided literature studies have failed to have a significant impact on the field as a whole" (Olsen, 1993)
- "fantasme récurrent de la bibliothèque universelle" (Welger-Barboza, 2001)
- "une rencontre ratée entre une technique et une discipline" (Genet et Zorzi, 2011)
- "tarte à la crème des discours sur l’innovation à l’Université" (Mounier, 2017)
Humanités numériques
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
- boite noire (Drucker, 2011)
- biais épistémologiques (Drucker, 2011)
- difficulté de sourcer
- faibles interactions avec l'historien
Vague 2 de Berry (2011)
Les humanités numériques génèrent et interprètent des données (2010+)
= mirage?
Qu'est-ce qu'une donnée ?
Interprétable par l'humain vs. compréhensible par la machine
non-structurée vs. structurée (ex: csv)
Mastcam 100, NASA
Les données
ou plutôt:
les « construits » (Bruno Latour)
/
les « capta » (Johanna Drucker).
Parce que ce sont les sciences humaines qui
captent et construisent ces données
Qu'est-ce qu'une donnée ?
Nous identifions et interprétons les informations,
les machines non!
Qu'est-ce qu'une donnée ?
Qu'est-ce qu'une donnée ?
De l'importance de créer des chaînes de traitement de données
Traitement des données
- Captation/Numérisation
- Stockage
- Nettoyage/Pré-traitement
- Traitement (intégration/fusion)
- Analyse
- Visualisation / publication
Co-authorship network map of physicians publishing on hepatitis C, CC BY Andy Lamb
Captation/Numérisation
Captation/Numérisation
Creative Tools from Halmdstad, Sweden
Stockage
Stockage
Format libre vs. propriétaire
format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre
Loi pour la confiance dans l'économie numérique, 2004
Nommage
- Environnement technique (caractères)
- Document connu et identifiable
- Règle de nommage
Stockage
3 niveaux pour le stockage de donnée:
- Conserver → physique (train de bits)
- Assurer l'accès → format ouverts,
- Preserver l'intelligibilité → métadonnées
Accès aux données
Et pour la diffusion ? Normes et conventions !
- FAIR
- DOIs
- Moissonnage (OAI-PMH, APIs)
- Open Data
- Web des données ?
Importance des métadonnées et de l'indexation !
Quelques mot-clés !
Stockage
Crédits : Matthieu Quantin
Pré-traitement/Nettoyage
Open refine non blank cells, CC BY Tony Hirst
Pré-traitement/Nettoyage
Analyse
- Knowledge discovery
- Apprentissage machine
- Réseau de neurones
Tasks, CC BY NC xkcd
@tifa2up / medium.com / Image Classification using Deep Neural Networks
Visualisation
Des objets d'étude hétérogènes
Des objectifs variés
Des approches adaptées
Des approches adaptées
Des ressources inégales
(LREC map 2010)
Quelques projets
- Nantes1900 : histoire du port de Nantes
- Haruspex : analyse d'un corpus d'entretiens
- Recital : crowdsourcing et analyse de registres comptables du XVIIIe
Mots-clés : fouille de textes, intégration de données, visualisation d'informations, gestion de connaissances
Nantes1900
Nantes1900
Numérisation 3D
Rétro-ingénierie
Archivistique
Ingénierie des connaissances
Bases de données
IHM
Réalité augmentée
Nantes1900
Haruspex
Haruspex
Du discours aux données...
... et inversement
Objectifs d'analyses:
- Proximité multi-échelle
- Intra/inter-corpus
- Multi-dimensionnel
- Contenu
- Co-occurrences
- Connectivité
- Anomalies
Ce n'est pas:
- du web sémantique
- un outil de formalisation des connaissances
- un outil de stockage
- ...
Haruspex
Entrée:
texte (brut/pdf, office, LateX, ...)
Sortie:
Multigraphe pondéré
- nœud = texte
- arc = occurrence
Haruspex
Fonctionne en 4 étapes
Haruspex
Topic modeling (bi-clustering)
Haruspex
Topic modeling (bi-clustering): le corpus UNESCO
Haruspex
Topic modeling (bi-clustering): le corpus UNESCO
Haruspex
Topic modeling (bi-clustering): le corpus UNESCO
Haruspex
Topic modeling (bi-clustering): le corpus UNESCO
Haruspex
Le corpus de Pierre Teissier
- Entretiens
- Chimie du solide / Materials Research
- Thèse (2007), livre(2013), articles.
format de fichier | odt |
structure interne (titre, sous-titre, etc.) | non |
nombre de documents | 41 |
nombre de mots | 339k |
nombre de mots après filtre | 87 316 |
nombre de lemmes différents | 9 884 |
moyenne du nb de mots par document | 8 268 |
écart-type du nb de mots par document | 4 837 |
Problématique générale
Identifier la naissance et la dispersion d’une
communauté scientifique.
Haruspex
Le corpus de Pierre Teissier
Forme extraite (exemples) | Nb d’occ. |
docs concernés | Thématique |
---|---|---|---|
Bronzes de vanadium | 26 | 5 | Chimie |
Chimie de coordination | 22 | 8 | Chimie |
Thèse de troisième cycle | 16 | 7 | France, Éducation |
Microscopie électronique | 63 | 20 | Physique |
Microscopie électronique à transmission à haute résolution | 3 | 2 | Physique |
Four solaire d’Odeillo | 3 | 4 | Industrie, Sciences |
Repêchage : Si non-homogène // Si trop commun // Si en disparition
Haruspex
Équivalence entre mots ou expressions
Haruspex
Équivalence entre mots ou expressions
Haruspex
Haruspex
C’est l’hypothèse qu’émet l’atlas : qu’un lien existe entre ce qui apparemment diffère au plus haut point. »
Georges Didi-Huberman (2011)
Atlas ou le gai savoir inquiet
Haruspex
Générer un point d'entrée
Haruspex
Point surprenant
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
alumine | 0.414 | 30 | 4 | 4 |
mat. réfractaires | 0.197 | 23 | 3 | 3 |
Daniel Vivien | 0.093 | 28 | 2 | 2 |
Vitry-sur-Seine | 0.062 | 50 | 3 | 6 |
Perez | 0.052 | 11 | 1 | 1 |
ferrites | 0.052 | 10 | 1 | 1 |
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
vanadium | 0.606 | 23 | 6 | 8 |
bronzes de tungstène | 0.511 | 9 | 5 | 4 |
John Goodenough | 0.509 | 19 | 4 | 5 |
verres fluorés | 0.421 | 55 | 2 | 19 |
bronzes de vanadium | 0.395 | 22 | 2 | 12 |
octaèdres | 0.375 | 19 | 2 | 12 |
Haruspex
Haruspex
Haruspex
Le corpus de Pierre Teissier
Haruspex
Le corpus de Pierre Teissier
Haruspex
Épistémologie pratique
Épistémologie pratique
Autres applications
Haruspex
Recital
http://recital.univ-nantes.fr
{RE}gistres de la {C}omédie-{ITAL}ienne
- Histoire des spectacles (XVIIIe)
- Économie du spectacle
La Comédie-Italienne : [dessin] / [Jean Baptiste Lallemand]. src: gallica.bnf.fr
Dans une étude longitudinale, que nous enseigne la comptabilité du théâtre sur :
- la structure sociale du public ?
- la popularité du répertoire et des auteurs ?
- la circulation des acteurs, ouvriers, danseurs,etc.?
- les décors et la mise en scène (accessoires) ?
Le fonds documentaire
- conservé sous les toits de la Bibliothèque-Musée de l’Opéra
- numérisé dans le cadre d’un précédent projet du CETHEFI convention avec la BnF pour un droit d’exploitation
- fac-similés disponibles sur gallica.bnf.fr
69 registres, 27544 pages
Extraction des données
Que faire avec les 25.250 pages d’archives numérisées ?
Du fac-similé à la donnée :
- numérique, par ex. un montant de recette
- et symbolique, par ex. une catégorie de dépense, ou un titre de pièce
Deux sous-projets en informatique, menés conjointement :
- Reconnaissance automatique d’écriture manuscrite
- Transcription participative avec RECITAL
Crowdsourcing
"Science participative"
Le problème :
Une tâche colossale et complexe d’annotation et de transcription des registres
La (notre) solution :
- Scinder cette tâche en une myriade de micro-tâches indépendantes,
- exposées instantanément et disponibles 24/7 via le Web,
- exploitant une ressource inépuisable : le citoyen-bénévole !
Estimation temps expert : 7400 heures (pour les comptes quotidiens = 70% du corpus)
« labeling and transcription are well-suited HITs (Human IntelligenceTasks) for crowdsourcing »
Crowdsourcing
"Science participative"
Pourquoi ne peut-on pas automatiser l’extraction de données ?...
autrement dit
Pourquoi la reconnaissance de formes est-elle peu performante ?
- écriture manuscrite irrégulière
- 2 langues : Italien et Français
- monnaie duodécimale de l’Ancien Régime : Livre-Sou-Denier
- 7+ « caissiers » : de Alborghetti à Linguet (à partir de 1741)
-
au cours du siècle :
- évolution formelle des bilans comptables
- évolution des règles comptables
Crowdsourcing
"Science participative"
http://recital.univ-nantes.fr
Sciences participatives
- Co-production de connaissance par l’expert et le citoyen
- Le crowdsourcing (ou production participative) comme accélérateur de projets et vecteur du passage à l’échelle
- Une communauté très active autour des projets pour la santé,l’environnement et la biodiversité, l’astronomie
Sciences participatives
Fold It
Sciences participatives
Pour aller plus loin :Les sciences participatives en France : État des lieux, bonnes pratiques et recommandations par François Houllier, PDG de l’Inra, Fév. 2016.
Galaxy Zoo
Sciences participatives
Pour la transcription d’archives principalement
Popularité grandissante des plate-formes participatives
Quelques projets emblématiques :
- Testaments de Poilus: 354 documents en TEI pour l’édition électronique.
- Transcribe Bentham: 21 609 pages (partiellement) transcrites dont 20 779 (96%) ont été approuvées.
- Transcribathon : 51 652 documents dont 15 187 en cours de transcription et 14 132 achevés
Et les humanités ?
Sciences participatives
- 88 projets dont 12 en histoire
- Global Impact Awardde Google ($1,8M)
- Vaste communauté de volontaires (essentiellement anglophones)
Zooniverse
Sciences participatives
projet démarré en 2016
- CS pour la transcription participative de 25 000 pages de registres
- comportant 8 types de documents et 133 catégories d’information
-
3+1 familles de tâches et un workflow complexe incluant :
- indexation des pages
- annotation graphique des pages
- indexation des marques
- transcription des marques
- évaluation collaborative des transcriptions
Et RECITAL ?
Sciences participatives
Avancement : >1M tâches réalisées par +1800 bénévoles
Et RECITAL ?
Crowdsourcing
"Science participative"
http://recital.univ-nantes.fr
À vous de jouer !
Données fiables ?
(1) Recherche de consensus
Propositions | Votes |
---|---|
Le mercredy 15e novembre 1758 | 2 |
mercredi 15 novembre 1759 | 1 |
Mercredi 15 novembre 1758 | 3 |
(2) Élimination des doublons
Données fiables ?
Le CS génère de l’incertitude (et donc du stress !)
1. Les facteurs endogènes :
- Compétence et intention des bénévoles a priori inconnues
2. Les choix de conception de RECITAL :
- Découpage, enchaînement et difficulté des tâches
- Stratégie d’affectation aléatoire des tâches
- Mode de transcription libre (diplomatique vs. modernisée)
- Règle du consensus à la majorité
Nettoyage des données
Propositions | Votes |
---|---|
Arlecchino Mutto | 2 |
Arlicn. Mutto | 1 |
Arlequin Mutto | 1 |
La recette
- Simplification (Maj, ponctuation, ...)
- Racinisation, lemmatisation
- Segmentation, alignement
- Calcul de similarité
Résolution d'entités
Soit un ensemble de titres de pièces tiré de sources fiables et variées (Gueulette, Repertorio, etc.)
Comment aligner des fragments de titres de soirée sur les titres de pièces ?
- distance 3-Grams et taux de couverture
- perspectives : clustering
- "Le père de famille"
- "Paysans de qualité"
Et maintenant ?
Une base de données « intermédiaire » de 64 979 fragments de transcription :
- indexés :task_key et field
- tracés et validés :status et confidence
- repérés :mark_id
Et maintenant ?
Consensus sur un titre : 13 opinions !
A noter !
- Comment est caractérisée la donnée ? status, confidence, mark_id
- Quelle signification des indicateurs pour l’expert ?
Pour quelles finalités ?
- Créer des productions numériques « fiables »complémentaires car nécessairement limitées : c’est l’historien qui connaît le contexte !
- Représentation des données : multiplier les échelles d’observation !
- Mise en évidence d’"éléments de surprise" amenant de nouvelles connaissances (dépense du « Lion »)
Recital
Quelles productions numériques?
https://recital.univ-nantes.fr/dashboard/#/
Conclusion
- Objectif : disposer d’une BdD fiable, documentée et fidèle au corpus original augmentée de mécanismes d’exploration et d’analyse
- Moyen :pallier les limites des techniques de reconnaissance automatique d’écriture par le crowdsourcing
- Difficultés :la nature du corpus et les choix de conception de la plateforme induisent des problématiques de qualité des données
- Solution partielle n°1 : les techniques de correction des données permettent de résoudre la très grande majorité des dissensus
- Solution partielle n°2 : les techniques pour la résolution d’entités permettent d’opérer des rapprochements et donc, de consolider les données
Quelques questionnements
Pour le crowdsourcing, réduction du bruit et de l'incertitude par :
- Évaluation des bénévoles
- Évaluation de la difficulté des tâches
- Recherche de consensus : appariement et réconciliation
- Stratégie d'affectation des tâches aux bénévoles
- Détection/prévention des contributions indésirables
Pour la valorisation du fonds documentaire :
- Intégration de données avec des sources externes
- Statistiques et visualisation
- Recherche d'information
- Analyse de données
Peut-on automatiser cette tâche ???
oui ! mais ... les algorithmes ont besoin de beaucoup de données pour apprendre !
Pour délimiter les zones, on peut :
- Utiliser les données des annotations
- Utiliser des données artificielles
Réseau de neurones
Apprentissage
Reconnaissance
Peut-on automatiser cette tâche ???
Réseau de neurones
Apprentissage
Reconnaissance
Arlicchino Mutto
Le 22 septembre 1717 Mercredi
je suis sans nouvelles
oui ! mais ... les algorithmes ont besoin de beaucoup de données pour apprendre !
Pour reconnaitre le texte, on peut :
- Utiliser les données des annotations
- Utiliser d'autres textes déjà annotés (fr, en, es, ...)
take care of you
de l'amour, et les villageois
Recital
Titres :
- carnaval d'été
- amours champestres
- (divertissement)
Liste de "référence" :
Repertorio
Clarence D. Brenner
(fautes/doublons)
4e Du Carnaval d'Été et Le Divertissement Precedé dés amours champestres
Nettoyage
Résolution d'entités (N-grams + position)
Recital
Résultats (sur un échantillon vérifié) :
70% de précision
Les deux jumeaux de Bergame Werther et Charlotte Le Comte d'albert
- 'Le Comte d'Albert', 0.56
- 'Deux Jumeaux de Bergame', 0.55
- 'Werther et Charlotte', 0.52
Couverture : 90%, Sim. moy. : 0.54
[('les', 0.13), ('esd', 0.13), ('sde', 0.13), ('deu', 0.13) [...] ('alb', 0.13), ('lbe', 0.13), ('rt', 0.13), ('t', 0.13)]
- Calcul de similarité (cos) avec chaque titre de référence
- Position approximative dans la chaîne originale
- Vérification de la couverture totale
[Kondrak, 2005]
Outils et services
TGIR Huma-Num
Outils et services
https://www.huma-num.fr/services-et-outils/traiter
- Traitement de textes
- Bases de données
- SIG
- 2D, 3D
- Calcul intensif
HN - ECN - 29-11-22
By benjaminh
HN - ECN - 29-11-22
- 861