Introduzione alla TEI (Text Encoding Initiative)
Acquisire strumenti per poter gestire dati XML-TEI
Trovare soluzioni per la visualizzazione
Saper interrogare e navigare un documento XML
XML-TEI
XML RELATED TECHNOLOGIES
XML-SCHEMA
XPATH
XQUERY
XSLT
Quali sono i linguaggi di programmazione che possiamo utilizzare?
Perché ci sono gli standard e a cosa servono?
Cosa fare dopo aver codificato un testo?
http://www.tei-c.org/index.xml
schema
Database
XML
Ebooks
Json
HTML
Linked
data
TEI
Modello
teorico
astratto
Processo di
codifica
Risorse
digitali
Analisi
del testo
La TEI - Text Encoding Initiative - è un consorzio di istituzioni internazionali, di ambito linguistico e letterario, con l'obiettivo di sviluppare standard per la codifica di testi umanistici e per promuovere e sostenere il loro uso per progetti istituzionali o di singoli individui.
Nel sito della TEI possiamo trovare:
- Linee guida della TEI
- una serie di tool per la creazione di documenti TEI e stylesheets per la trasformazione in differenti formati (e.g. HTML, Word, PDF, Databases, RDF/Linked Data, Slides, ePub, Schemas, etc.)
Tutti i testi conformi alla TEI contengono:
L'elemento <text> a sua volta contiene:
<front>: questo contiene tutti i materiali di tipo avantestuale del testo dell'edizione cartacea (dal titolo, al frontespizio, dediche, prefazioni, etc);
<body>: è il testo vero e proprio;
<back>: contiene tutti i materiali peritestuali.
Alcuni tag più utilizzati della TEI
<teiheader> L’avantesto TEI
<p> è l'elemento fondamentale per i testi in prosa
<div> delinea una sezione del corpo del testo - la TEI prevede 7 livelli di divisioni
<lg> contiene un gruppo di versi: possono essere una strofa, un ritornello, ecc.
<l> indica un singolo verso di una poesia
Xml (Tei) fornisce però esclusivamente norme di tipo sintattico, cioè stabilisce quali sono gli strumenti per fare il markup di un documento ma non dà alcuna indicazione sui nomi da usare per assegnare a una porzione del documento una certa interpretazione. Per far fronte a questo esistono gli schemi, ossia, un vocabolario di marcatura per l'Xml (Francesca Tomasi, Rappresentare e conservare in L'umanista digitale)
Sono linguaggi scritti in XML e sono Document Type Definition (DTD) , XML Schema e RELAX NG.
Strumenti della TEI - Roma
Riassumendo:
I sistemi di codifica permette lo scambio di informazioni attraverso la rappresentazione delle informazioni testuali.
La codifica è un'attività scientifica e di ricerca, ma a sua volta può supportare la ricerca.
Rendono esplicito alla macchina cosa è implicito per la persona.
La definizione del markup e il processo di codifica è uno degli aspetti che caratterizza la nuova forma di editore.
La scelta del markup non è neutra ed è frutto di interpretazione permessa soltanto da un'analisi e conoscenza del testo.
Text
Riassumendo:
Lo SCHEMA permette la definizione della grammatica del linguaggio definendo i tag scelti per il modello di testo scelto.
consentono la definizione di regole di validità per un documento XML.
Apriamo un nuovo file da Oxygen e impariamo a leggere le prime righe.
Dichiarazione XML:
<?xml version="1.0" encoding="UTF-8"?>
Istruzioni di processo:
<?xml-model href="http://www.tei-c.org/release/xml/tei/custom/schema/relaxng/tei_all.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<xsl:stylesheet version='1.0'
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
XPath è un linguaggio tramite il quale è possibile scrivere delle espressioni per indirizzare parti di un documento XML.
- permette di indicare i nodi in base alla loro posizione relativa o assoluta.
- È un linguaggio ideato per operare all’interno di altre tecnologie XML, quali XSLT.
- È un linguaggio W3C Standard
- XQuery e XSLT utilizzano componenti XPath per cercare corrispondenze con particolari elementi del documento.
Text
body
div type="poem"
div type="poem"
head
head
lg type="stanza"
lg type="stanza"
lg type="stanza"
lg type="stanza"
l n="1"
l n="1"
l n="2"
l n="3"
l n="2"
Un documento XML è un albero costituito da nodi. Alcuni nodi contengono altri nodi.
XPath attraverso una path expression serve ad individuare nodi o insieme di nodi XML, partendo dal nodo corrente - percorso "relativo" - o possono essere impiegati percorsi "assoluti" che utilizzano come riferimento la radice del documento.
Gli elementi sono separati dal carattere '/'.
Esempio: /A/B/C
Text
/body/div/head /body/div/lg Body/div/@type /body/div/lg/l[@n='2'] //l[@n>5
Funzioni, es.: count()
L'eXtensible Stylesheet Language (XSL) è un insieme di tre linguaggi che forniscono gli strumenti per l'elaborazione e la presentazione di documenti XML in maniera molto flessibile.
un meccanismo per l'individuazione dei dati da presentare
un meccanismo per il controllo dell'elaborazione dei dati e di come la presentazione deve essere effettuata
un meccanismo per la definizione della formattazione da applicare ai dati per la presentazione vera e propria
XQuery, una abbreviazione per XML Query Language, è un linguaggio di programmazione specificato dal W3C e destinato ad interrogare documenti e basi di dati XML.
XQuery usa la sintassi delle espressioni di XPath per la selezione di specifiche porzioni di documenti XML, con l'aggiunta delle cosiddette espressioni FLWOR per la formulazione di query complesse. XQuery è risultato come un derivato delle linguaggi XQL, XML-QL e Quilt.
XQuery è un linguaggio di programmazione funzionale, dichiarativo, a tipizzazione statica e Turing-completo. Oltre alle espressioni XPath, esiste un gran numero di caratteristiche interessanti del linguaggio: