Analisi testuale: metodologie per l'analisi quantitativa dei testi letterari

Le tecniche di analisi testuale consentono di analizzare, esplorare e interrogare raccolte di testi anche molto vasti di particolare interesse come documenti, interviste, rassegne stampa, domande aperte in questionari, forum, newsgroup e altro. A partire dagli anni Novanta la crescente diffusione dei software per l analisi dei testi ha impresso una notevole accelerazione all uso dei documenti nella ricerca sociale (impiegati anche in ambiti diversi da quello delle comunicazioni di massa), determinando la crescita esponenziale di applicazioni e soluzioni.

L'analisi automatica di testi è costituita da un
insieme di tecniche automatiche o semi-automatiche,
supportate da specifici software, per la descrizione e
l'analisi di dati testuali.


•  I DATI TESTUALI sono informazioni su fenomeni
espressi mediante PAROLE .

Che cos'è il distant reading?

 

Intanto, qui si parla di letteratura: l'oggetto rimane piú o meno quello di sempre, a differenza della recente virata del new historicism, e poi dei cultural studies, verso altri ambiti di discorso. Ma la letteratura viene poi "vista da lontano", nel senso che il metodo di studio qui proposto sostituisce la lettura ravvicinata del testo (il close reading della tradizione di lingua inglese) con la riflessione su quegli oggetti artificiali: i grafici, le carte, e gli alberi.

Che cos'è il distant reading?

 

Oggetti diversi, ma che sono tutti il risultato di un processo di deliberata riduzione e astrazione - insomma: di un allontanamento - rispetto al testo nella sua concretezza. "Distant reading", ho chiamato una volta, un po' per scherzo e un po' no, questo modo di lavorare: dove la distanza non è però un ostacolo alla conoscenza, bensí una sua forma specifica. La distanza fa vedere meno dettagli, vero: ma fa capire meglio i rapporti, i pattern, le forme»

Sul distant reading: una visione critica di Fabio Ciotti

 

• Algoritmi indipendenti dal contesto

• Non-neutralità del dato

• Influenza statistica della dimensione

• Natura multilinguistica di molti testi (?)

• Differenze di visualizzazione

• Approccio esplorativo (impossibile in documenti oggetto di intenzionalità?)

• Rinuncia a “causalità” a favore di “correlazione”

• Non-lessicalizzazione di molti livelli del testo

• Natura sociologica e non letteraria di molte analisi

 

 

Metodi statistici di analisi linguistica:

 

operazioni-base:

 

• Text retrieval

• Indici

• Concordanze

• Frequenze (TF-IDF score)

• Lessici tematici (thesauri)

 

Concordanze

 

• Elenco delle parole contenute in un testo ordinate alfabeticamente, accompagnate da riferimenti che ne rendono possibile il ritrovamento nell’originale e seguite da un contesto che aiuta a interpretare il significato dell’occorrenza

 

• Indice che aggiunge per ogni parola un breve contesto

 

• Rockwell: “estrae e riordina in nuove configurazioni elementi di informazione al fine di rendere possibile la scoperta e la riflessione”

Parola Forma Lemma


Parola (word): unità di senso

Forma (type): unità grafica

Occorrenza (token): numero di volte in cui compare un determinato type •

Lemma: unità linguistica

Collocates = occorrenza


• Forma analizzata dal computer: sequenza di caratteri racchiusa tra segni di punteggiatura o spazi o numeri: problemi con trattini, apostrofi, ecc.

Concordanze

 

. Formati

 

•  KWIC = Key Word in Context

 

•  Centrata, allineata su margine destro, allineata su margine sinistro

 

•  Kwoc = Key Word out of Context

Organizzare il materiale testuale nella forma della base di dati significa consentire operazioni di information retrieval, cioè di recupero dell‟informazione ricercata, che superano il livello del mero riconoscimento dei dati informazionali per stringhe di caratteri, cioè il pattern recognition, consentendo inoltre indagini testuali di varia natura. I software che realizzano analisi testuali sono molteplici. In questa sede si è deciso di trattarne solo alcuni che, a nostro avviso, offrono un ottimo compromesso tra ricchezza funzionale e praticità d‟uso

La digitalizzazione dei documenti e la pervasività della comunicazione mediata dal computer hanno reso potenzialmente disponibili grandi masse di informazioni e dati. Tuttavia questo non ci deve far dimenticare che, per quanto dettagliate e precise siano le nostre informazioni, esse saranno sempre incomplete rispetto alla realtà e complessità dei fenomeni oggetto di studio.

 

La nostra conoscenza è sempre intrinsecamente incerta. Per questo, informatica e statistica devono essere affiancate dalla scienza dell’incerto, la probabilità.

Nella interpretazione di un testo e nell’analisi del suo contenuto semantico, l’informazione si esprime in una rete di significati di complessità crescente e non lineare che – per essere efficiente – deve uniformarsi al modelli della mente e del pensiero nei quali l’originalità, l’imprevisto e la sorpresa rappresentano inevitabilmente caratteristiche dell’intelligenza e della creatività.

 

Il primo a cogliere il senso complessivo dei vantaggi offerti dalla tecnologia per la “gestione intelligente della memoria” fu Vannevar Bush con il suo “memex” (memory extension) uno strumento di consultazione e indicizzazione dei documenti d’archivio inventato negli anni Trenta del secolo scorso.

TAPoR – Text Analysis Portal of Research, iniziato nel 2002 e coordinato da Geoffrey Rockwell, è un progetto in pieno sviluppo e si propone di diventare un portale di sperimentazione ad alto livello per l’analisi dei testi digitali (Rockwell, 2003). Dal 1 giugno 2012 è attivo un nuovo portale sperimentale: Tapor 2.0.


Il portale è ricchissimo di documentazione e aggiornamenti sullo stato della ricerca nella linguistica computazionale e nell’analisi automatica dei testi.

Nella sezione TAPoR Texts sono raccolti testi di esempio e una selezione della documentazione didattica. L’utente può iscriversi gratuitamente e creare, con il proprio account, una sezione di testi personali; se lo ritiene opportuno può renderli pubblicamente utilizzabili da tutti.

Con il login si accede a due ambienti principali di lavoro - TAPoRware e Voyant – che interagiscono tra loro all’interno del portale, però alcune opzioni più complesse sono tuttora instabili e pertanto – in questa presentazione introduttiva – è preferibile seguire l’accesso esterno agli strumenti di analisi e visualizzazione più affidabili. Una guida alle funzioni principali è disponibile in inglese, francese e itali

Il fine è la produzione di un indice, cioè un elenco di tali parole, che costituisce il vocabolario delle forme grafiche cosiì come e dove esse compaiono.

 

Diremo che il type è la parola in astratto mentre il token è la parola che occorre in un punto definito in un certo numero di volte nel testo.

concordanze: è la collocazione delle parole rispetto al contesto testuale d'uso.

 

Frequenza: la verifica di quante volte una forma grafica occorre.

 

Il rango: La posizione che ogni vocabolo occupa all'interno della lista di frequenze.

- L'importanza delle parole vuote

 

Cosa sono le parole vuote?

Sul distant reading: una visione critica di Fabio Ciotti

 

text clustering: applicazione di algoritmi probabilistici di confronto testuale al fine di suddividere un insieme di testi in sotto-gruppi (cluster);

 

topic modeling: individuazione dei cluster di parole che caratterizzano un insieme di testi e analisi delle loro distribuzioni nei vari testi.

 

sentiment analysis: Matt Jockers, Syuzhet (R package)

 

Network analysis (Moretti)

Analisi del testo

By Tiziana Mancinelli

Analisi del testo

  • 568