12/01/2018
Benjamin Hervy - Matthieu Quantin
Qu'est-ce que le numérique ? Milad Doueihi, 2013
Informatique comme science
Informatique comme industrie
Informatique comme culture
Père Roberto Busa, jésuite et spécialiste de Thomas d'Aquin
Index Thomisticus en collaboration avec IBM
Première enquête philologique, 1949
→ Sciences du texte et de l'interprétation, science informatique
Éclatement de l'idée de texte
Numérisation patrimoniale
Lecture érudite et savante → conception quantitative de la preuve
Alan Turing et sa machine apprenante/pensante
Turing test, by Bilby - Own work, Public Domain
Article proposant un modèle humain et social aux machines et à leurs apprentissages
→ aléas et imprévus
Débats:
A. Turing : « la recherche culturelle » = la transmission des techniques et des découvertes entre humains
pluridisciplinarité
transdisciplinarité
interdisciplinarité
PÉRIODISATIONS
Berry 2011, en 2 vagues:
2010+
1980+
PÉRIODISATIONS
Burnard 2012, en 3 périodes:
60-80
80-90
90+
« L’historien de demain sera programmeur ou ne sera plus »
Ladurie (1973)
→ transformation de l'acte même de lire
L'ESPOIR ET LE FUTUR ÉTERNEL
Rappel: « impératif philologique » (Vico, 1725):
la nécessité de restituer les conditions de production des savoirs dans leurs variations et leur inévitable
fragilité
L'ESPOIR ET LE FUTUR ÉTERNEL
Les optimistes, « le meilleur est à venir »:
Rosnay (1995), Clavert (2013), Le Deuff (2014)...
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
CRITIQUES
Société présentiste (Hartog, 1993), soumise à la technologie
Vague 2 de Berry (2011)
Les humanités numériques génèrent et interprètent des données (2010+)
= mirage?
Interprétable par l'humain vs. compréhensible par la machine
non-structurée vs. structurée (ex: csv)
Mastcam 100, NASA
Les données
ou plutôt:
les « construits » (Bruno Latour)
/
les « capta » (Johanna Drucker).
Parce que ce sont les sciences humaines qui
captent et construisent ces données
Nous identifions et interprétons les informations,
les machines non!
De l'importance de créer des chaînes de traitement de données
Co-authorship network map of physicians publishing on hepatitis C, CC BY Andy Lamb
Creative Tools from Halmdstad, Sweden
Format libre vs. propriétaire
format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre
Loi pour la confiance dans l'économie numérique, 2004
Nommage
3 niveaux pour le stockage de donnée:
Open refine non blank cells, CC BY Tony Hirst
Tasks, CC BY NC xkcd
@tifa2up / medium.com / Image Classification using Deep Neural Networks
(LREC map 2010)
Mots-clés : fouille de textes, intégration de données, visualisation d'informations, gestion de connaissances
http://recital.univ-nantes.fr
Processus de crowdsourcing :
Estimation temps expert : 7400 heures
(pour les comptes quotidiens = 70% du corpus)
Titres :
Liste de "référence" :
Repertorio
Clarence D. Brenner
(fautes/doublons)
4e Du Carnaval d'Été et Le Divertissement Precedé dés amours champestres
Nettoyage
Résolution d'entités (N-grams + position)
Résultats (sur un échantillon vérifié) :
70% de précision
Les deux jumeaux de Bergame Werther et Charlotte Le Comte d'albert
Couverture : 90%, Sim. moy. : 0.54
[('les', 0.13), ('esd', 0.13), ('sde', 0.13), ('deu', 0.13) [...] ('alb', 0.13), ('lbe', 0.13), ('rt', 0.13), ('t', 0.13)]
[Kondrak, 2005]
Du discours aux données...
... et inversement
Objectifs d'analyses:
Ce n'est pas:
Entrée:
texte (brut/pdf, office, LateX, ...)
Sortie:
Multigraphe pondéré
- nœud = texte
- arc = occurrence
Fonctionne en 4 étapes
Topic modeling (bi-clustering)
Topic modeling (bi-clustering): le corpus UNESCO
Topic modeling (bi-clustering): le corpus UNESCO
Topic modeling (bi-clustering): le corpus UNESCO
Topic modeling (bi-clustering): le corpus UNESCO
Le corpus de Pierre Teissier
format de fichier | odt |
structure interne (titre, sous-titre, etc.) | non |
nombre de documents | 41 |
nombre de mots | 339k |
nombre de mots après filtre | 87 316 |
nombre de lemmes différents | 9 884 |
moyenne du nb de mots par document | 8 268 |
écart-type du nb de mots par document | 4 837 |
Problématique générale
Identifier la naissance et la dispersion d’une
communauté scientifique.
Le corpus de Pierre Teissier
Forme extraite (exemples) | Nb d’occ. |
docs concernés | Thématique |
---|---|---|---|
Bronzes de vanadium | 26 | 5 | Chimie |
Chimie de coordination | 22 | 8 | Chimie |
Thèse de troisième cycle | 16 | 7 | France, Éducation |
Microscopie électronique | 63 | 20 | Physique |
Microscopie électronique à transmission à haute résolution | 3 | 2 | Physique |
Four solaire d’Odeillo | 3 | 4 | Industrie, Sciences |
Repêchage : Si non-homogène // Si trop commun // Si en disparition
Équivalence entre mots ou expressions
Équivalence entre mots ou expressions
C’est l’hypothèse qu’émet l’atlas : qu’un lien existe entre ce qui apparemment diffère au plus haut point. »
Georges Didi-Huberman (2011)
Atlas ou le gai savoir inquiet
Générer un point d'entrée
Point surprenant
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
alumine | 0.414 | 30 | 4 | 4 |
mat. réfractaires | 0.197 | 23 | 3 | 3 |
Daniel Vivien | 0.093 | 28 | 2 | 2 |
Vitry-sur-Seine | 0.062 | 50 | 3 | 6 |
Perez | 0.052 | 11 | 1 | 1 |
ferrites | 0.052 | 10 | 1 | 1 |
Mot-clé | Poids | tot | A | B |
---|---|---|---|---|
vanadium | 0.606 | 23 | 6 | 8 |
bronzes de tungstène | 0.511 | 9 | 5 | 4 |
John Goodenough | 0.509 | 19 | 4 | 5 |
verres fluorés | 0.421 | 55 | 2 | 19 |
bronzes de vanadium | 0.395 | 22 | 2 | 12 |
octaèdres | 0.375 | 19 | 2 | 12 |
Le corpus de Pierre Teissier
Le corpus de Pierre Teissier
Épistémologie pratique
Épistémologie pratique
Autres applications
TGIR Huma-Num
https://www.huma-num.fr/services-et-outils/traiter