Introduzione
Introduzione alla TEI (Text Encoding Initiative)
Acquisire strumenti per poter gestire dati XML-TEI
Trovare soluzioni per la visualizzazione
Saper interrogare e navigare un documento XML
1. Introduzione
Testualità digitale e fondamenti di editoria digitale. Che cos'è un'edizione scientifica digitale?
2. Tutorial XML/TEI
Strumenti di base e linguaggi dichiarativi XML. Lo standard TEI (Text Encoding Initiative) utilizzato per la realizzazione di un progetto editoriale sul web.
3. Esercitazione pratica: presentazione dell’editor XML/TEI e marcatura di un testo concordato.
A introdurvi alla teoria e alla pratica del documento digitale, ovvero:
Qual è lo scopo di una “edizione”?
L’esigenza di conservare l’opera
L’esigenza di trasmettere l’opera
L’esigenza di trovare un pubblico per l’opera
L’esigenza di rispettare la volontà dell’autore
L’esigenza di conservare i manufatti dell’artista
L’esigenza di testimoniare l’evoluzione dell’opera
La “filologia materiale” degli anni ‘30: Pasquali, De Benedetti, Contini Scrittura come “processo” e testo come “sistema”
Segre: “… è utile ribadire che […] la natura del testo è condizionata dai modi della sua produzione e riproduzione, che insomma il testo non è una realtà fisica ma un concetto limite.” (1981)
La conservazione digitale non è un semplice processo di conservazione degli oggetti fisici, ma un processo di conservazione della capacità di riprodurre gli oggetti… [di fatto] non si può provare di aver conservato un oggetto fintanto che che non venga ricostruito in una forma che ne permetta l’uso da parte di esseri umani o di programmi di elaborazione automatica”. (Thibodeau 2002)
Essa è “rappresentazione” e non mera trascrizione del parlato, ne fornisce cioè un modello concettuale. In modo simile, il passaggio dall’analogico al digitale descrive un processo di rappresentazione
Anche nella codifica di un testo è necessario esprimere un modello concettuale, ovvero astratto, di quel testo
“La scrittura è metalinguistica” (Olson 1997)
La codifica digitale è una “rappresentazione” e una “traduzione” di un oggetto in/attraverso un altro linguaggio (in questo caso un meta-linguaggio, Lotman 1973)
In entrambi i casi (codifica e traduzione) il circolo ermeneutico per continuare a vivere deve essere periodicamente rinnovato
Lo scopo della codifica
Le informazioni incorporate in un testo sono denominate, dall'inglese, alternativamente "codifica" (encoding), "marcatura" (markup), o, con un brutto calco, "taggatura" (tagging)
Un linguaggio di markup è un linguaggio che consente di descrivere dati tramite dei marcatori (tag). Un esempio molto popolare di linguaggio di markup è l’HTML, che consente di descrivere pagine per il Web. Il linguaggio HTML utilizza un insieme predefinito di tag per descrivere gli elementi di una pagina Web (es.: <head></head>, <body></body>, ecc.).
La codifica informatica di un testo è la rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico.
Tale definizione sottende però una serie di questioni teoriche (ma anche pratiche!). Innanzitutto il concetto di rappresentazione del testo (a che livello? da quale punto di vista?), e in secondo luogo il problema della comprensione, vale a dire un sistema di comunicazione condiviso dall'uomo e dalla macchina.
Elena Pierazzo, La codifica dei testi letterari, Carocci, 2005 (1 Capitolo)
La codifica di un testo, quindi, può essere definita come una rappresentazione di un testo su un supporto digitale, in funzione di un determinato punto di vista, secondo un codice condiviso in modo sostanziale dall'uomo e dall'elaboratore elettronico cui tale codifica è destinata.
Senza una marcatura semantica o strutturale, si possono effettuare solo ricerche molto semplici sui testi
La codifica gioca un ruolo importante per la rappresentazione e modellizzazione del documento in quanto, ogni volta che un atto di comunicazione ne viene attuato, si opera una selezione e una organizzazione dell'informazione da trasmettere.
Analizzare significa innanzittutto scomporre, selezionare.
La codifica, quindi, è un mezzo per rendere esplicita un'interpretazione del testo (G. Gigliozzi, 1997)
È un metalinguaggio di markup, cioè un linguaggio che permette di definire “altri linguaggi” a seconda della sua applicazione.
è uno standard ufficiale sviluppato dal W3C (World Wide Web Consortium) nel 1999: deriva da SGML quale suo sottoinsieme semplificato, ma ad oggi lo sostituisce. (http://www.w3.org/XML)
Nasce con l’obiettivo di rappresentare documenti (e.g. un testo letterario) e/o dati strutturati (e.g. i riferimenti bibliografici) su supporto digitale.
Un testo marcato in sintassi XML è detto documento XML: contiene sia il testo che i tag (anch’essi testo) utilizzati per descrivere le informazioni insite nel testo;
è “leggibile” dall’utente senza l’utilizzo di software specifici (i.e. con qualsiasi editor di testo). É infatti indipendente da qualsiasi software e hardware.
Un linguaggio di programmazione normalmente impone una terminologia per esprimere concetti e istruzioni.
XML - che non è un linguaggio di programmazione - dice solo come esprimere formalmente i concetti tramite una sintassi vincolante, ma la semantica degli elementi è decisa dall’utente!
A differenza di HTML, XML non ha tag predefiniti e non serve per definire pagine Web:
Con XML possiamo preservare le informazioni dall’obsolescenza digitale, che caratterizza software e hardware, e porci in un secondo momento il problema
della sua visualizzazione.
Gli elementi della sintassi:
XML-TEI
XML RELATED TECHNOLOGIES
XML-SCHEMA
XPATH
XQUERY
XSLT
Modello
teorico
astratto
Processo di
codifica
Risorse
digitali
Analisi
del testo
XML SCHEMA fornisce però esclusivamente norme di tipo sintattico, cioè stabilisce quali sono gli ELEMENTI per fare il markup di un documento ma non dà alcuna indicazione sui nomi da usare per assegnare a una porzione del documento una certa interpretazione. Per far fronte a questo esistono gli schemi, ossia, un vocabolario di marcatura per l'Xml (Francesca Tomasi, Rappresentare e conservare in L'umanista digitale)
Sono linguaggi scritti in XML e sono Document Type Definition (DTD) , XML Schema e RELAX NG.
Strumenti della TEI - Roma
Text
Lo SCHEMA permette la definizione della grammatica del linguaggio definendo i tag scelti per il modello di testo scelto.
consentono la definizione di regole di validità per un documento XML.
Apriamo un nuovo file da Oxygen e impariamo a leggere le prime righe.
Dichiarazione XML:
<?xml version="1.0" encoding="UTF-8"?>
Istruzioni di processo:
<?xml-model href="http://www.tei-c.org/release/xml/tei/custom/schema/relaxng/tei_all.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<xsl:stylesheet version='1.0'
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
La TEI - Text Encoding Initiative - è un consorzio di istituzioni internazionali, di ambito linguistico e letterario, con l'obiettivo di sviluppare standard per la codifica di testi umanistici e per promuovere e sostenere il loro uso per progetti istituzionali o di singoli individui.
Nel sito della TEI possiamo trovare:
- Linee guida della TEI
- una serie di tool per la creazione di documenti TEI e stylesheets per la trasformazione in differenti formati (e.g. HTML, Word, PDF, Databases, RDF/Linked Data, Slides, ePub, Schemas, etc.)
http://www.tei-c.org/index.xml
schema
Database
XML
Ebooks
Json
HTML
Linked
data
TEI
Text
body
div type="poem"
div type="poem"
head
head
lg type="stanza"
lg type="stanza"
lg type="stanza"
lg type="stanza"
l n="1"
l n="1"
l n="2"
l n="3"
l n="2"