Le Web Sémantique à l'usage des institutions culturelles.

Tout document doit pouvoir rencontrer son lecteur...

Mais... Où sont nos lecteurs ?

...Sur le web.

Trois moyens d'aller à la rencontre des lecteurs  :

  • Sur le Web de documents
  • Sur le Web sémantique
  • Sur le Web de données

Historiquement, le Web sémantique découle du web de données dont il est la concrétisation technique, mais pour les besoins de l'exposé, j'aborderai le web sémantique avant le web de données, sous l'angle de ses caractéristiques linguistiques.

Première partie : le web de documents

Les quatre composantes du web

Un principe

Un mécanisme d'identification

Un langage

Un protocole

L' hypertexte

URL/URI

HTML

HTTP

1. Un principe : l' hypertexte

  • Des robots (moteurs de recherche) à la recherche de nouvelles URL...
  • ... Qui ouvrent chacun des liens hypertextes...
  • ... Qui identifient les pages et les classent derrière des mots-clés dans une Base de données...
  • ... Base de données interrogeable par une requête toute simple comme "Victor Hugo".

2. Les URI/URL : Identification et localisation des Ressources

  • Identifie et localise une ressource sur le réseau
  • Respecte une syntaxe particulière
  • Attribué par une autorité enregistrée

Uniform Resource Identifier

Uniform Resource Locator

3. Langage HTML : des informations structurées

<p class="bloc" style="background:#7090E0;">Œuvres principales</p>
<div style="font-size: 90%;">
<ul>
<li><i><a href="/wiki/Les_Fleurs_du_mal" title="Les Fleurs du mal">Les Fleurs du mal</a></i> (1857)</li>
<li><i><a href="/wiki/Les_Paradis_artificiels" title="Les Paradis artificiels">Les Paradis artificiels</a></i> (1860)</li>
<li><i><a href="/wiki/Le_Spleen_de_Paris" title="Le Spleen de Paris">Le Spleen de Paris</a> (posthume 1846-1859)</i></li>
</ul>
</div>
<div class="hr" style="background-color: #7090E0;height: 1px;"></div>
<div class="images"><a href="/w/index.php?title=Fichier:Baudelaire_signatur_.svg&lang=fr" class="image"><img alt="Signature de Charles Baudelaire" src="//upload.wikimedia.org/wikipedia/commons/thumb/5/53/Baudelaire_signatur_.svg/langfr-170px-Baudelaire_signatur_.svg.png" width="170" height="28" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/5/53/Baudelaire_signatur_.svg/langfr-255px-Baudelaire_signatur_.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/5/53/Baudelaire_signatur_.svg/langfr-340px-Baudelaire_signatur_.svg.png 2x" data-file-width="387" data-file-height="64" /></a></div>
<p class="navbar noprint bordered" style="border-color: #7090E0; border-width: 1px;"><span class="plainlinks"><a class="external text" href="//fr.wikipedia.org/w/index.php?title=Charles_Baudelaire&action=edit&section=0">modifier</a></span> <a href="/wiki/Mod%C3%A8le:Infobox_%C3%89crivain" title="Consultez la documentation du modèle"><img alt="Consultez la documentation du modèle" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/b4/Gtk-dialog-info.svg/12px-Gtk-dialog-info.svg.png" width="12" height="12" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/b4/Gtk-dialog-info.svg/18px-Gtk-dialog-info.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/b/b4/Gtk-dialog-info.svg/24px-Gtk-dialog-info.svg.png 2x" data-file-width="60" data-file-height="60" /></a></p>
</div>
<p><b>Charles-Pierre Baudelaire</b> est un <a href="/wiki/Po%C3%A8te" title="Poète">poète</a> <a href="/wiki/France" title="France">français</a>, né à <a href="/wiki/Paris" title="Paris">Paris</a> le <time class="nowrap date-lien bday" datetime="1821-04-09"><a href="/wiki/9_avril" title="9 avril">9</a> <a href="/wiki/Avril_1821" title="Avril 1821">avril</a> <a href="/wiki/1821" title="1821">1821</a></time> et mort dans la même ville, <a href="/wiki/Rue_du_D%C3%B4me" title="Rue du Dôme">rue du Dôme</a>, dans le <a href="/wiki/16e_arrondissement_de_Paris" title="16e arrondissement de Paris">16<sup>e</sup> arrondissement</a>, le <time class="nowrap date-lien dday" datetime="1867-08-31"><a href="/wiki/31_ao%C3%BBt" title="31 août">31</a> <a href="/wiki/Ao%C3%BBt_1867" title="Août 1867">août</a> <a href="/wiki/1867" title="1867">1867</a></time> <span style="white-space:nowrap">(à 46 ans)</span>. « <a href="/wiki/Dante_Alighieri" title="Dante Alighieri">Dante</a> d'une époque déchue <sup id="cite_ref-2" class="reference"><a href="#cite_note-2"><span class="cite_crochet">[</span>2<span class="cite_crochet">]</span></a></sup>» selon le mot de <a href="/wiki/Jules_Barbey_d%27Aurevilly" title="Jules Barbey d'Aurevilly">Barbey d'Aurevilly</a>, « tourné vers le classicisme, nourri de <a href="/wiki/Romantisme" title="Romantisme">romantisme</a> <sup id="cite_ref-3" class="reference"><a href="#cite_note-3"><span class="cite_crochet">[</span>3<span class="cite_crochet">]</span></a></sup>», à la croisée entre le <a href="/wiki/Parnasse_(litt%C3%A9rature)" title="Parnasse (littérature)" class="mw-redirect">Parnasse</a> et le <a href="/wiki/Symbolisme_(art)" title="Symbolisme (art)">symbolisme</a>, chantre de la « <a href="/wiki/Modernit%C3%A9_en_po%C3%A9sie" title="Modernité en poésie">modernité</a> », il occupe une place considérable parmi les poètes français pour un recueil certes bref au regard de l'œuvre de son contemporain <a href="/wiki/Victor_Hugo" title="Victor Hugo">Victor Hugo</a> (Baudelaire s'ouvrit à son éditeur de sa crainte que son volume ne ressemblât trop à <i>une plaquette</i>…), mais qu'il aura façonné sa vie durant : <i><a href="/wiki/Les_Fleurs_du_mal" title="Les Fleurs du mal">Les Fleurs du mal</a>.</i></p>
<p>Au cœur des débats sur la fonction de la <a href="/wiki/Litt%C3%A9rature" title="Littérature">littérature</a> de son époque, Baudelaire détache la <a href="/wiki/Po%C3%A9sie" title="Poésie">poésie</a> de la <a href="/wiki/Morale" title="Morale">morale</a>, la proclame tout entière destinée au <a href="/wiki/Beau" title="Beau">Beau</a> et non à la <a href="/wiki/V%C3%A9rit%C3%A9" title="Vérité">Vérité</a><sup id="cite_ref-4" class="reference"><a href="#cite_note-4"><span class="cite_crochet">[</span>4<span class="cite_crochet">]</span></a></sup>. Comme le suggère le titre de son recueil, il a tenté de tisser des liens entre le <a href="/wiki/Mal" title="Mal">mal</a> et la <a href="/wiki/Beau" title="Beau">beauté</a>, le <a href="/wiki/Bonheur" title="Bonheur">bonheur</a> fugitif et l'idéal inaccessible (<i><a href="/wiki/%C3%80_une_passante" title="À une passante">À une passante</a></i>), la <a href="/wiki/Violence" title="Violence">violence</a> et la <a href="/wiki/Volupt%C3%A9" title="Volupté" class="mw-disambig">volupté</a> (<i>Une martyre</i>), mais aussi entre le poète et son lecteur (« Hypocrite lecteur, mon semblable, mon frère ») et même entre les artistes à travers les âges (<i>Les Phares)<sup id="cite_ref-5" class="reference"><a href="#cite_note-5"><span class="cite_crochet">[</span>5<span class="cite_crochet">]</span></a></sup></i>. Outre des <a href="/wiki/Po%C3%A8me" title="Poème">poèmes</a> graves (<i>Semper Eadem</i>) ou scandaleux (<i>Delphine et Hippolyte</i>), il a exprimé la <a href="/wiki/M%C3%A9lancolie" title="Mélancolie">mélancolie</a> (<i>Mœsta et errabunda</i>), l'<a href="/wiki/Horreur" title="Horreur" class="mw-disambig">horreur</a> (<i>Une charogne</i>) et l'envie d'ailleurs (<i>L'Invitation au voyage</i>) à travers l'<a href="/wiki/Exotisme" title="Exotisme">exotisme</a>.</p>
<p></p>
<tr class="odd"><td class="property"><a class="uri" id="short_p_is_not" href="http://eo.dbpedia.org/ontology/wikiPageExternalLink" title="http%3A%2F%2Fdbpedia.org%2Fontology%2FwikiPageExternalLink"><small>dbpedia-owl:</small>wikiPageExternalLink</a>
</td><td><ul>
	<li><span class="literal"><a class="uri" rel="dbpedia-owl:wikiPageExternalLink nofollow" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" href="http://baudelaire.litteratura.com/">http://baudelaire.litteratura.com/</a></span></li>
	<li><span class="literal"><a class="uri" rel="dbpedia-owl:wikiPageExternalLink nofollow" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" href="http://zmila.at.tut.by/ViaKato.html#LaKato">http://zmila.at.tut.by/ViaKato.html#LaKato</a></span></li>
	<li><span class="literal"><a class="uri" rel="dbpedia-owl:wikiPageExternalLink nofollow" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" href="http://donh.best.vwh.net/Esperanto/Literaturo/Poezio/albatro.html">http://donh.best.vwh.net/Esperanto/Literaturo/Poezio/albatro.html</a></span></li>
	<li><span class="literal"><a class="uri" rel="dbpedia-owl:wikiPageExternalLink nofollow" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" href="http://donh.best.vwh.net/Esperanto/Literaturo/Revuoj/nlr/nlr32/fremdulou.html">http://donh.best.vwh.net/Esperanto/Literaturo/Revuoj/nlr/nlr32/fremdulou.html</a></span></li>
	<li><span class="literal"><a class="uri" rel="dbpedia-owl:wikiPageExternalLink nofollow" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" href="http://donh.best.vwh.net/Esperanto/Literaturo/Revuoj/nlr/nlr33/floroj.html">http://donh.best.vwh.net/Esperanto/Literaturo/Revuoj/nlr/nlr33/floroj.html</a></span></li>
	<li><span class="literal"><a class="uri" rel="dbpedia-owl:wikiPageExternalLink nofollow" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" href="http://donh.best.vwh.net/Esperanto/Literaturo/Revuoj/nlr/nlr42/poezio.html">http://donh.best.vwh.net/Esperanto/Literaturo/Revuoj/nlr/nlr42/poezio.html</a></span></li>
	<li><span class="literal"><a class="uri" rel="dbpedia-owl:wikiPageExternalLink nofollow" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" href="http://www.tekstoj.nl/lm/lm22-1/invito.html">http://www.tekstoj.nl/lm/lm22-1/invito.html</a></span></li>
</ul></td></tr><tr class="even"><td class="property"><a class="uri" id="short_p_is_not" href="http://eo.dbpedia.org/ontology/wikiPageID" title="http%3A%2F%2Fdbpedia.org%2Fontology%2FwikiPageID"><small>dbpedia-owl:</small>wikiPageID</a>
</td><td><ul>

4. Le protocole HTTP, concrètement.

Serveur

Client

Page web

GET

200 OK

HTTP

www

Le web est avant tout un ensemble de standards.

  • Les pages sont liées entre elles, mais elles évoluent indépendamment.
  • Chaque nouvelle page qui s'affiche respecte les mêmes principes.
  • Ces pages sont lisibles quels que soient le navigateur, le terminal, le type d'institution qui les publie.
  • Le web vise donc à une certaine universalité.

Des équivalents analogiques ?

1. Un navigateur

2. Une URL

3. Une structure HTML

4. Un protocole d'échange

Un premier pas vers le web : les portails

  • Principe : Exposer des documents numérisés / électroniques sur le web (un document = une url/uri)
  • Exemple : Europeana, HAL, Gallica
  • Avantage : Exposer des documents de sources diverses dans une interface unique. 

Deuxième partie : le web sémantique

Le web sémantique permet de répondre à deux problèmes en ce qui concerne l'accès à l'information :

  • Un problème de granularité
  • Un problème de dispersion

1. Un problème de granularité

  • des œuvres
  • des personnes
  • des thèmes
  • des lieux
  • des événements

Les publics souhaitent accéder à des contenus et des informations sur...

Les institutions culturelles donnent accès à...

  • des documents
  • des objets matériels
  • des fonds d'archives

Des données (petits bouts d'information)

Des items (objets contenant de l'information)

2. Un problème de dispersion

  • Le site des Archives Nationales
  • Le site des Affaires étrangères
  • Le site de la bibliothèque littéraire Jacques Doucet
  • Les catalogues de la Bibliothèque Nationale
  • ... Europeana, le portail des archives européennes, etc.

Si un usager fait une recherche sur André Malraux, il faudra qu'il aille sur...

A l'intérieur même de la Bibliothèque Nationale...

  • Catalogue général
  • Gallica
  • Archives et Manuscrits
  • Reliure, BP16, Mandragore, Biblissima...

Principe du web sémantique : trouver les plus petits dénominateurs communs entre plusieurs documents, eux-mêmes dispersés dans plusieurs institutions culturelles...

Bla bla bla Murakami bla bla bla 1Q84 bla bla bla Tokyo

Bla bla bla Tokyo bla bla bla 1Q84 bla bla bla Murakami

Bla bla bla 1Q84 bla bla bla Murakami bla bla bla Tokyo

Bla bla bla  1Q84 bla bla bla  Tokyo bla bla bla Murakami

  • Murakami
  • 1Q84
  • Tokyo

... Et faire de ces dénominateurs communs un standard sur le web.

Bla bla bla Murakami bla bla bla 1Q84 bla bla bla Tokyo

Bla bla bla Tokyo bla bla bla 1Q84 bla bla bla Murakami

Bla bla bla 1Q84 bla bla bla Murakami bla bla bla Tokyo

Bla bla bla  1Q84 bla bla bla  Tokyo bla bla bla Murakami

  • http://data.bnf.fr/12206638/haruki_murakami/
  • https://www.wikidata.org/wiki/Q208971 (1Q84)
  • http://data.bnf.fr/15322935/tokyo__japon_/

Ce ne sont plus les documents que nous lions entre eux, mais des éléments de langage

Qui dit éléments de langage standardisés dit... langue universelle, à savoir :

  • Des vocabulaires
  • Des ontologies
  • Une syntaxe
  • Des identifiants

communs !

1. Se mettre d'accord sur les mots et les choses : les vocabulaires contrôlés

  • Système d'organisation des connaissances
  • Peut être un thésaurus, une liste d'autorités, un système de classification. Exemple : Le langage d'indexation précoordonné RAMEAU se compose d'un vocabulaire de termes reliés entre eux (...). L'ensemble des notices d'autorité - dont le noyau est formé de noms communs et de noms géographiques - constitue les autorités RAMEAU
  • L'important est de se mettre d'accord sur un nom officiel, souvent scientifique, pour désigner une chose. Ex : doudou.

2. Exprimer des relations entre les choses : les ontologies

  • Une organisation du réel, le plus souvent du général au particulier : êtres vivants > mammifères > canidés > chiens > bergers allemands > Iota (individu). 
  • Définit des classes, à savoir des catégories que l'on décrit (un livre, une personne, un thème, un lieu).
  • Définit des propriétés, à savoir des verbes portant sur ces catégories (a pour titre, a pour nom, a pour date de naissance...).

Exemple d'ontologie : FOAF

Personne

Littéral

Organisation

Agent

Image

Littéral

Littéral

sous-catégorie de

sous-catégorie de

a pour prénom

a pour nom de famille

a pour photo

est né le

Que définissent les ontologies ?

Elles définissent les classes et les propriétés, mais aussi leurs règles d'utilisation.

  • Héritage : sous-classes, sous-propriétés
  • Domaine et co-domaine d'une propriété
  • Equivalence 
  • Inférence - Définir une logique pour déduire : 
    • propriétés symétriques (A=B, B=A)
    • propriétés inverses (A a pour auteur B, B est l'auteur de A)
    • propriétés transitives (A fait partie de B, B fait partie de C >> A fait partie de C)
    • contraintes de cardinalité (propriété "a pour père biologique" : ne peut relier un sujet qu'à un seul objet)

Une ontologie permet d'exprimer en langage web les relations de classifications au sein d'un vocabulaire contrôlé comme Rameau

Ontologie web pour les sujets : SKOS

Boisson alcoolisée (Rameau)

Vin blanc (Rameau)

Vin de liqueur (Rameau)

Vins (Rameau)

Skos:altLabel

Skos:narrower

Skos:broader

Skos:exactMatch

Skos:narrower

3. Une syntaxe pour lier les choses entre elles: le RDF

En plus des ontologies, qui expriment des relations de classification, la syntaxe RDF exprime des relations de sujet à objet grâce à un ordre standard des mots.

Un sujet

Victor Hugo

http://data.bnf.fr/11967596/victor_hugo_notre-dame_de_paris

a comme prédicat

est l'auteur de

http://purl.org/dc/elements/l.1/creator

Un objet

Notre-Dame de Paris

http://data.bnf.fr/11967596/victor_hugo_notre-dame_de_paris

(raccourci = dc:creator)

4. Des identifiants pour exprimer tout ça de manière pérenne sur le web : les URI

Une URI est une adresse Web :

  • Globalement unique et non ambiguë
  • Accessible et citable
  • Stable
  • Qui permet d'identifier une chose

Le plus important est de s'assurer de la pérennité de l'URI : 

  • J'attribue une URI a une chose : pour combien de temps ?
  • Si la chose disparaît, est-ce que je réattribue l'identifiant ?
  • Comment la chose identifiée évolue-t-elle ? Est-elle immuable, correctible, croissante, dynamique ?

Concrètement, le web sémantique...

foaf:Person

"Histoire de la folie à l'âge classique"

http://catalogue.bnf.fr/ark:/12148/cb119642071

http://catalogue.bnf.fr/ark:/12148/cb11903202t

http://id.loc.gov/authorities/subjects/sh85083643.html

"1926-10-15"

"1984-06-25"

"Michel"

"Foucault"

"Folie"

"Maladie Mentale"

http://catalogue.bnf.fr/ark:/12148/cb11942041r

dc:subject

skos:altLabel

owl:sameAs

skos:prefLabel

dc:title

dc:creator

foaf:givenName

rdf:type

foaf:familyName

bio:death

bio:birth

Pour résumer (à grosses mailles) :

  • Référentiels et identifiants permettent de désigner des ressources : les référentiels s'assurent que l'on parle bien de la même chose, les identifiants permettent de les publier de manière unique sur le web. Les uri s'appliquent également aux ontologies.
  • Syntaxe RDF et Ontologies permettent de lier ces ressources entre elles : la syntaxe indique la direction du lien, l'ontologie indique sa nature et son comportement.

Troisième partie : du web sémantique au web de données

    "Le web sémantique est un ensemble de technologies développées par le W3C en vue de mettre en oeuvre une vision : celle du web de données, un réseau où les données structurées qui se trouvent actuellement isolées dans des bases de données pourraient être exprimées sous une forme permettant aux machines de les interpréter et de construire de nouvelles applications et de nouveaux services. Pour cela, les données doivent être partagées dans un espace commun (le web) et reliées en utilisant des identifiants fiables et uniques."

Emmanuelle Bermès, Le web sémantique en bibliothèque. Paris, Edition du cercle de la librairie.

Open Data, objectifs

  • Transparence et Démocratie
  • Développement économique
  • Feuille de route Gouvernement février 2013 :
    • Le service public est le premier utilisateur de données publiques de qualité.
    • L'état favorise la réutilisation des données publiques par les entreprises pour créer des services innovants
    • Suivre et encourager la recherche en sciences des données
    • De l'Open Data à l'Open Linked Data : http://5stardata.info/en/

De la navigation à la réutilisation : les deux visages de data.bnf.fr

Quatre modes de récupération du RDF

  • Tout en bloc : dumps rdf
  • Pour chaque ressource : négociation de contenu
  • Dans les pages HTML
  • Interrogeable à la demande : SPARQL endpoint
SELECT DISTINCT ?edition ?titre ?date ?editeur
WHERE {
  <http://data.bnf.fr/ark:/12148/cb11947965f> foaf:focus ?Oeuvre .
  ?edition rdarelationships:workManifested ?Oeuvre.
  OPTIONAL{
    ?edition dcterms:date ?date
  }OPTIONAL{
    ?edition dcterms:title ?titre
  }OPTIONAL{
    ?edition dcterms:publisher ?editeur
  }
}

Récupérer des données, pourquoi faire ?

  • Enrichir des données que l'on a déjà : grâce aux alignements entre ressources, on peut enrichir ses propres données. Ex : Wikidata, VIAF
  • Wikidata et VIAF deviennent en quelque sorte des plateformes d'échange de données et de gestion des identifiants (on s'assure qu'il n'y ait pas de doublons).
  • Récupérer des métadonnées lorsque l'on veut mettre en ligne du contenu. Exemple : inventaire.io, Librethéâtre...
  • Extraire des connaissances en faisant de la fouille de données. Exemple : https://resultats.hypotheses.org/518

Des données à forte valeur ajoutée

  • Des données validées : créées par un professionnel de la description des ressources
  • Des données contextualisées : les informations sont précisées par une source et une date
  • Pérennité des accès et des citations : 
    • Permaliens (à la BnF : Ark)
    • Généralement, l'identifiant est envisagé sur le très long terme
  • Utilisateur tiers : tradition d'une offre de services et désintéressement financier
  • Des données organisées : les FRBR permettent de classer les ressources du général au particulier, classement qui peut se récupérer sur le web sémantique où il est exprimé (rdarelationships:expressionManifested)

Exemples et ressources

Bibliographie

  • BERMES Emmanuelle ; avec la collaboration d'ISAAC Antoine et POUPEAU Gautier. Le Web sémantique en bibliothèque, Paris, Ed. du Cercle de la Librairie, 2013
  • Bibliographic Information Organization in the Semantic Web / Mirna Willer and Gordon Dunsire. - Chandos Publishing, 2013.
  • Seth van Hooland, Ruben Verborgh. Linked Data for Libraries, Archives and Museums : How to Clean, Link and Publish Your Metadata. Facet Publishing, 2014, 224p.

Merci de votre attention ! :)

Formation Master PEEN

By Raphaëlle Lapôtre

Formation Master PEEN

  • 1,452