I sistemi di analisi del testo
I sistemi di analisi del testo
Le tecniche di analisi testuale consentono di analizzare, esplorare e interrogare raccolte di testi anche molto vasti di particolare interesse come documenti, interviste, rassegne stampa, domande aperte in questionari, forum, newsgroup e altro. A partire dagli anni Novanta la crescente diffusione dei software per l analisi dei testi ha impresso una notevole accelerazione all uso dei documenti nella ricerca sociale (impiegati anche in ambiti diversi da quello delle comunicazioni di massa), determinando la crescita esponenziale di applicazioni e soluzioni.
I sistemi di analisi del testo
L'analisi automatica di testi
• L analisi automatica di testi è costituita da un
insieme di tecniche automatiche o semi-automatiche,
supportate da specifici software, per la descrizione e
l analisi di dati testuali.
• I DATI TESTUALI sono informazioni su fenomeni
espressi mediante PAROLE .
I sistemi di analisi del testo
L'analisi automatica di testi
• Le soluzioni trovate non si fondano su strumenti statistici, ma scaturiscono da una stretta multidisciplinarità che associa a questi, con uguale importanza, strumenti informatici e linguistici, soprattutto nell area, nota oggi in letteratura, con il termine di Text Mining (TM).
• TEXT MINING o Text Data Mining (TM o TDM) è l estensione del Data Mining tradizionale su dati testuali non strutturati.
• Obiettivo principale del TM è l estrazione di informazione
rilevante da dati non strutturati che risiedono in documenti.
I sistemi di analisi del testo
I primi approcci verso un analisi quantitativa in ambito linguistico, risalgono agli anni 50 e 60 con gli studi Guiraud (1954, 1960), Herdan (1964)
• Nel corso degli anni 70 e 80 (Benzécri, 1977; 1982), alla
definizione della statistica testuale basata sull analisi di forme grafiche e di segmenti ripetuti (Lebart e Salem, 1984; Lebart et al. , 1998). Allo stesso tempo, sono stati sviluppati indici e misurazioni di statistica linguistica e statistica lessicale con le proposte di Muller (1977), Tournier (1980, 1985a, 1985b) Lafon (1980, 1981).
• Più recentemente, la crescente disponibilità di risorse linguistiche informatizzate e la crescente diffusione dei testi consultabili online, quindi, direttamente analizzabili, ha ulteriormente rivoluzionato
I sistemi di analisi del testo
La disponibilità crescente di corpora di dati non strutturati (come i file HTML) o semi-strutturati (come i file XML) in ambienti documentali distribuiti (www) ha di recente accresciuto le possibilità di lavorare con sistemi automatici del testo, consentendo quindi progressi consistenti nel campo dello studio del linguaggio naturale
I sistemi di analisi del testo
Organizzare il materiale testuale nella forma della base di dati
significa consentire operazioni di information retrieval, cioè di recupero dell‟informazione ricercata, che superano il livello del mero riconoscimento dei dati informazionali per stringhe di caratteri, cioè il pattern recognition, consentendo inoltre indagini testuali di varia natura. I software che realizzano analisi testuali sono molteplici. In questa sede si è deciso di trattarne solo alcuni che, a nostro avviso, offrono un ottimo compromesso tra ricchezza funzionale e praticità d‟uso
I sistemi di analisi del testo
La digitalizzazione dei documenti e la pervasività della comunicazione mediata dal computer hanno reso potenzialmente disponibili grandi masse di informazioni e dati. Tuttavia questo non ci deve far dimenticare che, per quanto dettagliate e precise siano le nostre informazioni, esse saranno sempre incomplete rispetto alla realtà e complessità dei fenomeni oggetto di studio. La nostra conoscenza è sempre intrinsecamente incerta. Per questo, informatica e statistica devono essere affiancate dalla scienza dell’incerto, la probabilità.
I sistemi di analisi del testo
L’analisi dei testi e del linguaggio non si sottraggono a questo limite. Ogni osservazione sul lessico e sulle strutture linguistiche rimanda necessariamente alle regole che governano la lingua come fenomeno sociale e pertanto pone problemi di inferenza che si risolvono soltanto con il supporto dei modelli matematici dell’incertezza. D’altra parte l’informazione stessa – già nella classica definizione di Claude Shannon – è inversamente proporzionale alla probabilità: un evento improbabile è più informativo di un evento probabile.
I sistemi di analisi del testo
Nella interpretazione di un testo e nell’analisi del suo contenuto semantico, l’informazione si esprime in una rete di significati di complessità crescente e non lineare che – per essere efficiente – deve uniformarsi al modelli della mente e del pensiero nei quali l’originalità, l’imprevisto e la sorpresa rappresentano inevitabilmente caratteristiche dell’intelligenza e della creatività.
Il primo a cogliere il senso complessivo dei vantaggi offerti dalla tecnologia per la “gestione intelligente della memoria” fu Vannevar Bush con il suo “memex” (memory extension) uno strumento di consultazione e indicizzazione dei documenti d’archivio inventato negli anni Trenta del secolo scorso.
I sistemi di analisi del testo
APoR – Text Analysis Portal of Research, iniziato nel 2002 e coordinato da Geoffrey Rockwell, è un progetto in pieno sviluppo e si propone di diventare un portale di sperimentazione ad alto livello per l’analisi dei testi digitali (Rockwell, 2003). Dal 1 giugno 2012 è attivo un nuovo portale sperimentale: Tapor 2.0.
Il portale è ricchissimo di documentazione e aggiornamenti sullo stato della ricerca nella linguistica computazionale
e nell’analisi automatica dei testi.
I sistemi di analisi del testo
Nella sezione TAPoR Texts sono raccolti testi di esempio e una selezione della documentazione didattica. L’utente può iscriversi gratuitamente e creare, con il proprio account, una sezione di
testi personali; se lo ritiene opportuno può renderli pubblicamente utilizzabili da tutti. Con il login si accede a due
ambienti principali di lavoro - TAPoRware e Voyant – che interagiscono tra loro all’interno del portale, però alcune opzioni più complesse sono tuttora instabili e pertanto – in questa presentazione introduttiva – è preferibile seguire l’accesso esterno agli strumenti di analisi e visualizzazione più affidabili. Una guida alle funzioni principali è disponibile in inglese, francese e italiano.
I sistemi di analisi del testo
in inglese, francese e italiano. TAPoRwere – Prototype of Text Analysis Tools è stato sviluppato da Geoffrey Rockwell, Lian Yan, Andrew Macdonald and Matt Patey. Gli strumenti sono compatibili con i documenti in HTML, XML e Plain Text e possono essere elaborati sia direttamente da fonte URL in web che con
upload di file dal computer personale. In generale in questo primo ambiente vi si trovano strumenti introduttivi ma anche applicazioni sperimentali ancora non del tutto messe a punto (e che attualmente sembra siano stati
I sistemi di analisi del testo
abbandonati) come Raw Grep (un generatore di concordanze che utilizza come pivot stringhe di testo anzichéparole), Keyords Finder (identificatore di parole chiave che si basa sul principio di massima frequenza delle “parole contenuto” e degli n-grams), Word Brush (un visualizzatore di parole “a scomparsa” con applicazioni solo estetiche).
Ultimamente è stato aggiunto un visualizzatore di frequenze in cui le parole sono rappresentate da gocce d’acqua: Voyant Term Fountain.
I sistemi di analisi del testo
Il fine è la produzione di un indice, cioè un elenco di tali parole, che costituisce il vocabolario delle forme grafiche cosiì come e dove esse compaiono. Diremo che il type è la parola in astratto mentre il token è la parola che occorre in un punto definito in un certo numero di volte nel testo.
I sistemi di analisi del testo
concordanze: è la collocazione delle parole rispetto al contesto testuale d'uso.
Frequenza: la verifica di quante volte una forma grafica occorre.
Il rango: La posizione che ogni vocabolo occupa all'interno della lista di frequenze.
I sistemi di analisi del testo
- L'importanza delle parole vuote
Cosa sono le parole vuote?
I sistemi di analisi del testo
- Catma: http://www.catma.de/
- Textal:http://www.textal.org/ (VERSIONE ITALIANA FATTA IO)
- ToposText: http://topostext.org/
- AICBT Authorship Attribution free tool: http://www.aicbt.com/authorship-attribution/online-software/
- Classical Text Editor: http://cte.oeaw.ac.at/
- Copyfind: http://plagiarism.bloomfieldmedia.com/z-wordpress/software/copyfind/
- Corpus Explorer: http://notes.jan-oliver-ruediger.de/software/corpusexplorer-overview/
- Databasic.io: https://www.databasic.io/en/
- elaborate: http://elaborate.huygens.knaw.nl/
- FromThePage: http://beta.fromthepage.com/
- Latin Corpus Miner (LCM): http://www.epol-projekt.de/tools-nlp/leipzig-corpus-miner-lcm/
- Latin Macronizer: http://stp.lingfil.uu.se/~winge/macronizer/
- MALLET (Machine Learning for Language Toolkit): http://mallet.cs.umass.edu/index.php/Main_Page
- Medieval Latin Lemmatiser: http://www.glossaria.eu/treetagger/
- NLTK Text Analysis online: http://textanalysisonline.com/ (LO USO MOLTO)
- Open Multilingual Wordnet: http://compling.hss.ntu.edu.sg/omw/
- Orange (Data Mining): http://orange.biolab.si/
- Sorting Algorithm Animation: http://www.sorting-algorithms.com/ (CARINO)
- Story Workbench: http://projects.csail.mit.edu/workbench/
- Stylo: https://sites.google.com/site/computationalstylistics/stylo
- SyntaxNet: https://github.com/tensorflow/models/tree/master/syntaxnet
- TAPoR (Text Analysis Portal for Research): http://tapor.humanities.mcmaster.ca/home.html
- TRACER text reuse detection machine: http://www.etrap.eu/research/tracer/
- TreeTagger: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
- Voyant Tools: https://voyant-tools.org/
- Word tree: https://www.jasondavies.com/wordtree/
Analisi del testo
By tiziana_m
Analisi del testo
- 1,536