Benjamin Hervy
IR - Chercheur associé Centre François Viète
benjamin.hervy@univ-nantes.fr
05/03/24 - École Centrale de Nantes
Qu'est-ce que le numérique ? Milad Doueihi, 2013
Informatique comme science
Informatique comme industrie
Informatique comme culture
(Tentative de) définition : ThatCamp 2010- Manifeste
« Pour nous, les digital humanities concernent l’ensemble des Sciences humaines et sociales, des Arts et des Lettres. Les digital humanities ne font pas table rase du passé. Elles s’appuient, au contraire, sur l’ensemble des paradigmes, savoir-faire et connaissances propres à ces disciplines, tout en mobilisant les outils et les perspectives singulières du champ du numérique. Les digital humanities désignent une transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des sciences humaines et sociales. »
Père Roberto Busa, jésuite et spécialiste de Thomas d'Aquin
Index Thomisticus en collaboration avec IBM
Première enquête philologique, 1949
→ Sciences du texte et de l'interprétation, science informatique
Éclatement de l'idée de texte
Numérisation patrimoniale
Lecture érudite et savante → conception quantitative de la preuve
Alan Turing et sa machine apprenante/pensante
Turing test, by Bilby - Own work, Public Domain
Article proposant un modèle humain et social aux machines et à leurs apprentissages
(≠ apprentissage automatique)
→ aléas et imprévus
PÉRIODISATIONS
Berry 2011, en 2 vagues:
2010+
1980+
PÉRIODISATIONS
Burnard 2012, en 3 périodes:
60-80
80-90
90+
« L’historien de demain sera programmeur ou ne sera plus »
Emmanuel Leroy-Ladurie, 1968
Ladurie (1973)
→ transformation de l'acte même de lire
L'ESPOIR ET LE FUTUR ÉTERNEL
Rappel: « impératif philologique » (Vico, 1725): la nécessité de restituer les conditions de production des savoirs dans leurs variations et leur inévitable fragilité
Assurer la qualité avant la quantité
L'ESPOIR ET LE FUTUR ÉTERNEL
Les optimistes, « le meilleur est à venir »:
Rosnay (1995), Clavert (2013), Le Deuff (2014)...
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
Vague 2 de Berry (2011)
Les humanités numériques génèrent et interprètent des données (2010+)
= mirage?
Interprétable par l'humain vs. compréhensible par la machine
non-structurée vs. structurée (ex: csv)
Mastcam 100, NASA
Les données
ou plutôt:
les « construits » (Bruno Latour)
/
les « capta » (Johanna Drucker).
Parce que ce sont les sciences humaines qui
captent et construisent ces données
Nous identifions et interprétons les informations,
les machines non!
De l'importance de créer des chaînes de traitement de données
Co-authorship network map of physicians publishing on hepatitis C, CC BY Andy Lamb
Creative Tools from Halmdstad, Sweden
Format libre vs. propriétaire
format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre
Loi pour la confiance dans l'économie numérique, 2004
Nommage
3 niveaux pour le stockage de donnée:
Et pour la diffusion ? Normes et conventions !
Importance des métadonnées et de l'indexation !
Crédits : Matthieu Quantin
Open refine non blank cells, CC BY Tony Hirst
Tasks, CC BY NC xkcd
@tifa2up / medium.com / Image Classification using Deep Neural Networks
(LREC map 2010)
Mots-clés : fouille de textes, intégration de données, visualisation d'informations, gestion de connaissances
Numérisation 3D
Rétro-ingénierie
Archivistique
Ingénierie des connaissances
Bases de données
IHM
Réalité augmentée
Du discours aux données...
... et inversement
Objectifs d'analyses:
Ce n'est pas:
Entrée:
texte (brut/pdf, office, LateX, ...)
Sortie:
Multigraphe pondéré
- nœud = texte
- arc = occurrence
Fonctionne en 4 étapes
Topic modeling (bi-clustering)
Topic modeling (bi-clustering): le corpus UNESCO
Topic modeling (bi-clustering): le corpus UNESCO
Topic modeling (bi-clustering): le corpus UNESCO
Topic modeling (bi-clustering): le corpus UNESCO
Le corpus de Pierre Teissier
format de fichier | odt |
structure interne (titre, sous-titre, etc.) | non |
nombre de documents | 41 |
nombre de mots | 339k |
nombre de mots après filtre | 87 316 |
nombre de lemmes différents | 9 884 |
moyenne du nb de mots par document | 8 268 |
écart-type du nb de mots par document | 4 837 |
Problématique générale
Identifier la naissance et la dispersion d’une
communauté scientifique.
Le corpus de Pierre Teissier
Forme extraite (exemples) | Nb d’occ. |
docs concernés | Thématique |
---|---|---|---|
Bronzes de vanadium | 26 | 5 | Chimie |
Chimie de coordination | 22 | 8 | Chimie |
Thèse de troisième cycle | 16 | 7 | France, Éducation |
Microscopie électronique | 63 | 20 | Physique |
Microscopie électronique à transmission à haute résolution | 3 | 2 | Physique |
Four solaire d’Odeillo | 3 | 4 | Industrie, Sciences |
Repêchage : Si non-homogène // Si trop commun // Si en disparition
Équivalence entre mots ou expressions
Équivalence entre mots ou expressions
C’est l’hypothèse qu’émet l’atlas : qu’un lien existe entre ce qui apparemment diffère au plus haut point. »
Georges Didi-Huberman (2011)
Atlas ou le gai savoir inquiet
Générer un point d'entrée
Point surprenant
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
alumine | 0.414 | 30 | 4 | 4 |
mat. réfractaires | 0.197 | 23 | 3 | 3 |
Daniel Vivien | 0.093 | 28 | 2 | 2 |
Vitry-sur-Seine | 0.062 | 50 | 3 | 6 |
Perez | 0.052 | 11 | 1 | 1 |
ferrites | 0.052 | 10 | 1 | 1 |
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
vanadium | 0.606 | 23 | 6 | 8 |
bronzes de tungstène | 0.511 | 9 | 5 | 4 |
John Goodenough | 0.509 | 19 | 4 | 5 |
verres fluorés | 0.421 | 55 | 2 | 19 |
bronzes de vanadium | 0.395 | 22 | 2 | 12 |
octaèdres | 0.375 | 19 | 2 | 12 |
Le corpus de Pierre Teissier
Le corpus de Pierre Teissier
Épistémologie pratique
Épistémologie pratique
Autres applications
http://recital.univ-nantes.fr
La Comédie-Italienne : [dessin] / [Jean Baptiste Lallemand]. src: gallica.bnf.fr
Dans une étude longitudinale, que nous enseigne la comptabilité du théâtre sur :
69 registres, 27544 pages
Que faire avec les 25.250 pages d’archives numérisées ?
Du fac-similé à la donnée :
Deux sous-projets en informatique, menés conjointement :
"Science participative"
Le problème :
Une tâche colossale et complexe d’annotation et de transcription des registres
La (notre) solution :
Estimation temps expert : 7400 heures (pour les comptes quotidiens = 70% du corpus)
« labeling and transcription are well-suited HITs (Human IntelligenceTasks) for crowdsourcing »
"Science participative"
Pourquoi ne peut-on pas automatiser l’extraction de données ?...
autrement dit
Pourquoi la reconnaissance de formes est-elle peu performante ?
"Science participative"
http://recital.univ-nantes.fr
Pour aller plus loin :Les sciences participatives en France : État des lieux, bonnes pratiques et recommandations par François Houllier, PDG de l’Inra, Fév. 2016.
Pour la transcription d’archives principalement
Popularité grandissante des plate-formes participatives
Quelques projets emblématiques :
projet démarré en 2016
Avancement : >1M tâches réalisées par +1800 bénévoles
"Science participative"
http://recital.univ-nantes.fr
(1) Recherche de consensus
Propositions | Votes |
---|---|
Le mercredy 15e novembre 1758 | 2 |
mercredi 15 novembre 1759 | 1 |
Mercredi 15 novembre 1758 | 3 |
(2) Élimination des doublons
Le CS génère de l’incertitude (et donc du stress !)
1. Les facteurs endogènes :
2. Les choix de conception de RECITAL :
Propositions | Votes |
---|---|
Arlecchino Mutto | 2 |
Arlicn. Mutto | 1 |
Arlequin Mutto | 1 |
La recette
Soit un ensemble de titres de pièces tiré de sources fiables et variées (Gueulette, Repertorio, etc.)
Comment aligner des fragments de titres de soirée sur les titres de pièces ?
Une base de données « intermédiaire » de 64 979 fragments de transcription :
Consensus sur un titre : 13 opinions !
Pour quelles finalités ?
https://recital.univ-nantes.fr/dashboard/#/
Pour le crowdsourcing, réduction du bruit et de l'incertitude par :
Pour la valorisation du fonds documentaire :
oui ! mais ... les algorithmes ont besoin de beaucoup de données pour apprendre !
Pour délimiter les zones, on peut :
Réseau de neurones
Apprentissage
Reconnaissance
Réseau de neurones
Apprentissage
Reconnaissance
Arlicchino Mutto
Le 22 septembre 1717 Mercredi
je suis sans nouvelles
oui ! mais ... les algorithmes ont besoin de beaucoup de données pour apprendre !
Pour reconnaitre le texte, on peut :
take care of you
de l'amour, et les villageois
Titres :
Liste de "référence" :
Repertorio
Clarence D. Brenner
(fautes/doublons)
4e Du Carnaval d'Été et Le Divertissement Precedé dés amours champestres
Nettoyage
Résolution d'entités (N-grams + position)
Résultats (sur un échantillon vérifié) :
70% de précision
Les deux jumeaux de Bergame Werther et Charlotte Le Comte d'albert
Couverture : 90%, Sim. moy. : 0.54
[('les', 0.13), ('esd', 0.13), ('sde', 0.13), ('deu', 0.13) [...] ('alb', 0.13), ('lbe', 0.13), ('rt', 0.13), ('t', 0.13)]
[Kondrak, 2005]
TGIR Huma-Num
https://www.huma-num.fr/services-et-outils/traiter