Critica computazionale

Metodi e prospettive

Giornata di studi in Filologia Digitale

Dipartimento di Studi Linguistici e Letterari, UniPd

Padova, 13 Febbraio 2024

Luca Giovannini

Università di Potsdam Università di Padova

Indice

1. Origini

Digital Humanities  

 -Digital literary studies

   --- Computational (literary) criticism

Di cosa parliamo quando parliamo di critica computazionale

Definizione di lavoro:

La CLS è un tipo di critica testuale:

  1. condotta attraverso l'ausilio di strumenti informatici e metodi statistici inferenziali
  2. svolta spesso in prospettiva quantitativa (ma attualmente: diffusione dei mixed methods)
  3. che presuppone modelli di pensiero e di lavoro "scientifici" (basati sul falsificazionismo)

 

(cf. Jannidis 2020)

Di cosa parliamo quando parliamo di critica computazionale

Operazionalizzare significa costruire un ponte dai concetti alla misurazione e poi al mondo. Nel nostro caso: dai concetti di teoria letteraria, attraverso una qualche forma di quantificazione, ai testi letterari.

un concetto chiave:

L'operazionalizzazione

Moretti 2013: 1

CRITICHE dall'ESterno

(Jannidis 2020: 10 ff.)

  • Irrilevanza: "lo sapevamo già, non è niente di nuovo"
    • Interpretazioni  conoscenza
    • "Triangolazione" nel contesto dei mixed methods
  • Inattualità: "usa categorie critiche ormai superate" (come "autore", "genere", "storia letteraria")
    • recupero di modelli ancora produttivi/messa in discussione delle impostazioni critiche predominanti
  • Inefficacia: "non riesce a cogliere l'essenza della letteratura"
    • ontologicamente diversa, più complessa? (cf. Jannidis 2019)
    • approccio descrittivo e non valutativo

Nan Z. Da, "The Computational Case against
Computational Literary Studies"
, Critical Inquiry 45, 3 (2019), pp. 601–639.  

  • Intento: "isolare una serie di problemi tecnici, errori logici e difetti concettuali nei CLS"
  • Vedi risposte nel Critical Inquiry forum e altrove

 

CRITICHE dalla SOGLIA

Moretti, Falso movimento (2023):

  • Lo sviluppo dei metodi statistici ha reciso il legame con la teoria letteraria del Novecento e con il concetto di forma
  • Mancanza o rifiuto della teoria, indispensabile per l'interpretazione del dato scientifico (cf. Thomas Kuhn), e prevalenza di approcci esplorativi (EDA)
    • ci sono in effetti problemi di incompatibilità da risolvere (Ciotti 2023: 101)
    • work-in-progress: vedi DHd-AG Theorie e Underwood 2014 (= gli algoritmi non sono strumenti arbitrari ma espressione di teorie epistemologiche)

CRITICHE dall'interno

"La statistica è il Pegaso dell’umanista. Spaventosamente cupo, meticoloso e impassibile,  è il trampolino di lancio del lirismo, la base da cui il poeta può lanciarsi verso il futuro e le sue incognite, con i piedi solidamente appoggiati su figure, curve, verità umane; in realtà questa lirica potrà interessarci poiché parlerà la nostra lingua, si prenderà cura delle cose che ci riguardano, ci animerà nella direzione del nostro movimento soltanto indicandoci le soluzioni del nostro sistema."

Chi ha paura della statistica?

Le Corbusier, Urbanisme [1925], pp. 99-100

urbanista.

2. metodi

Testo

Formalizzazione

Modellazione

<body>
  <div type="act">
    <head>Die Erste Abhandelung.</head>
    <div type="configuration">
    <stage>Der Schauplatz lieget voll Leichen-Bilder / Cronen / Zepter / Schwerdter etc. Vber dem Schau-Platz öffnet sich der Himmel / vnter dem Schau-Platz die Helle. Die Ewigkeit kommet von dem Himmel / vnd bleibet auff dem SchauPlatz stehen.</stage>
      <sp who="#ewigkeit">
        <speaker>Ewigkeit.</speaker>
        <l>Die Ihr auff der kummerreichen Welt</l>
        <l>Verschrenckt mit Weh' vnd Ach vnd dürren Todtenbeinen.</l>
        <l>Mich sucht wo alles bricht vnd felt /</l>
        <l>Wo sich Eu'r ichts / in nichts verkehrt / vnd eure Lust in herbes Weinen!</l>
        <l>Ihr Blinden! Ach! wo denckt jhr mich zu finden!</l>
        <l>Die jhr vor mich was brechen muß vnd schwinden /</l>
        <l>Die jhr vor Warheit nichts als falsche Träum' erwischt!</l>
        <l>Vnd bey den Pfützen euch an stat der Quel erfrischt!</l>
        <l>Ein Irrlicht ists was Euch O sterbliche! verführet</l>
        <l>Ein thöricht Rasen das den Sinn berühret.</l>
        <l>Wil jmand Ewig seyn wo man die kurtze Zeit</l>
        <pb n="13"/>
        <l>Die Handvoll Jahre die der Himmel euch nachsiht</l>
        <l>Diß Alter das vergeht in dem es blüht</l>
        <l>In Vnmuth theilt vnd in Vergängligkeit?</l>

il processo ermeneutico nei CLS

  • Testometria (Hyberbase, TXM)

  • Stilometria (Delta & Co.)

  • Estrazione semantica del testo (sentiment analysis, topic modelling, word embeddings)

principali Scuole metodologiche

secondo Herrmann et al. 2023

Secondo questo approccio, CLS  DLS (stilistica letteraria digitale) (cf. anche Beausang 2020)

UN censimento dei metodi per i CLS (link)

Formalismo quantitativo: prendere una forma estetica, e smontarla fino a raggiungere i suoi elementi di base: trasformare – anzi, diciamolo, ridurre – un romanzo ai suoi paragrafi, o un dramma a una sequenza di scambi linguistici. Fatto questo, ci si trova di fronte ad «una forma di secondo livello», come mi ha scritto una volta Alex Woloch; una forma al quadrato, astratta, una forma di forme […]

(Moretti 2023: 140)

formalismo quantitativo

cf. Allison et al. "Quantative Formalism: An Experiment", Stanford Literary Lab Pamphlet #1, gennaio 2015

ANALISI

DELLE RETI

LETTERARIE

Quantificazione di vari tipi di relazioni tra personaggi, conversione in grafo, e analisi con gli strumenti della (social) network analysis

 

(cf. Trilcke 2013 etc.)

ASPETTI TEORICI NELL'estrazione delle reti

(secondo Algee-Hewitt 2017: 756–57)

"Se la rete, come visualizzazione, comprime l'azione dinamica dello spettacolo in una morfologia schematica in cui tutte le interazioni [...] fanno parte di una rappresentazione statica...

 

...allora i parametri della rete distribuita dei personaggi riducono queste visualizzazioni multidimensionali in statistiche che rappresentano, nei minimi dettagli, un singolo aspetto della morfologia del dramma."

Azione drammatica

Rappresentazione formale (rete)

Morfologia dettagliata del dramma

Statistiche

3. prospettive

Lo sviluppo dell’apprendimento automatico (machine learning) rappresenta una risposta significativa
agli argomenti più logori contro i CLS e senza dubbio rivestirà un ruolo significativo nello sviluppo futuro del settore.

Beausang 2020: 195

Dagli anni 2010: sviluppo dell'apprendimento profondo (deep learning), basato su reti neurali complesse

Dagli anni 2020: esplosione dei modelli linguistici di grandi dimensioni (LLM), basati su tecnologia transformer 

(es. serie GPT)

  • "un ottimo strumento di supporto per la progettazione e
    implementazione di workflow di ricerca"

  • "hanno un impatto rilevante nella qualità, [quantità] e efficacia della ricerca umanistica"

Ciotti 2023b: 292

PAPPAGALLI STOCASTICI

Predizione dell'argomento Rilevamento della causa di un evento Analisi di interviste
Estrazione di reti di personaggi Individuazione di passaggi rilevanti Riuso testuale e concettuale
Analisi degli usi linguistico Misurazione dell'evoluzione semantica lessicale Annotazione linguistica
Rilevamento di opinioni Individuazione del genere letterario Analisi comparata di traduzioni
Lessicografia Accrescimento artificiale di dataset Analisi visuale multimodale

verso un "ai-augmented scholar"

Un esperimento (Karjus 2023)

  • Tutti questi compiti possono essere svolti da un LLM a zero-shot (= senza addestramento specifico) con un risultato qualitativamente simile a quello di un annotatore/esperto umano

  • Critiche: i modelli sono stocastici e closed-source... proprio come gli umani!

  • In prospettiva: allocare lavori ripetitivi alle macchine e riservare operazioni concettualmente interessanti agli umani
  • Creazione di figure come il department/lab LLM assistant

RISULTATI E DISCUSSIONE

4. caso studio

  1. Un problema (di storia letteraria)
  2. Un corpus di testi
  3. Una metodologia di lavoro

Quantitative APPROACHES TO EARLY MODERN EUROPEAN DRAMA (2021-)

1. Un problema di Storia letteraria:

l'evoluzione del teatro europeo nella prima modernità

Moretti, "La letteratura europea" (1993)

per analogia: nuove forme letterarie nascono grazie ai nuovi spazi politico-geografici che si creano nel corso della storia europea

Teoria della speciazione allopatrica: nascita di nuove specie in conseguenza del movimento in nuovi spazi

[Durante il Seicento] il fondo comune del dramma europeo si sfalda in un susseguirsi di mutazioni formali che coinvolgono i grandi Stati nazionali di Inghilterra, Spagna, e Francia, e le culture di lingua italiana e tedesca.

[...] cambia la costruzione della trama e la forma del verso, il rapporto tra parola e azione e la durata temporale, il registro stilistico e la quantità dei personaggi.

Moretti 1993: 10

la speciazione delle forme teatrali

Perché si abbia varietà morfologica c’è
bisogno di uno spazio [... ] ricco di «nicchie» culturali dove le mutazioni possano radicarsi, per svolgere poi il loro ruolo nell’evoluzione letteraria. [...] Lo spazio europeo va insomma concepito come una sorta di arcipelago: un insieme di spazi (nazionali) ognuno dei quali produce una (e una sola) mutazione formale. (10-11)

          1400                       1500                           1600                         1700                           1800

Modello uniforme del dramma europeo

(influenzato da Seneca e dalle tradizioni medievali)

Varianti nazionali

come misurare questa evoluzione?

2. corpus

  • 150 testi teatrali in cinque lingue (🇮🇹 - 🇫🇷 - 🇪🇸 - 🇩🇪 - 🇬🇧)

  • arco cronologico: 1561-1710 (150 anni)

  • distribuzione omogenea lungo l'intero periodo (2x5-10)

  • approccio deliberatamente non canonico

Luoghi di nascita degli autori (via Wikidata, dati incompleti)

integrazione in dracor

  • DraCor (Drama Corpora) è una piattaforma open-access per la ricerca

    sul teatro europeo.

  • Contiene attualmente 15 “programmable corpora” in 10 lingue diverse, per un totale di più di 3000 testi in formato XML-TEI.

  • Offre una vasta gamma di applicazioni e strumenti per la critica computazionale (es. calcolo di metriche di rete e distribuzione delle battute, ricerche SPARQL su Linked Open Data, etc.)

  • Grazie a Docker, è possibile creare corpora personalizzati da file locali

Homepage:

https://dracor.org

Paper:

Fischer et al. 2019

strategia di costruzione

Approccio pragmatico

  • riuso di file XML esistenti

    • adattamento a standard DraCor con pipeline ad hoc

  • codifica (non filologica) di nuove opere

    • OCR di scansioni originali

    • correzione manuale

    • conversione in XML-TEI attraverso il tool ezdrama

    • dracorizzazione

### J.W. Goethe, Faust II, Zz. 2037-2043 [https://dracor.org/ger/goethe-faust-eine-tragoedie]

<sp who="#schueler">
	<speaker>SCHÜLER.</speaker>
		<l> Das sieht schon besser aus! Man sieht doch, wo und wie. </l>
</sp>
<sp who="#mephistopheles">
	<speaker>MEPHISTOPHELES.</speaker>
		<l>Grau, teurer Freund, ist alle Theorie,</l>
		<l>Und grün des Lebens goldner Baum.</l>
</sp>
<sp who="#schueler">
	<speaker>SCHÜLER.</speaker>
		<l>Ich schwör' Euch zu, mir ist's als wie ein Traum.</l>
		<l>Dürft' ich Euch wohl ein andermal beschweren,</l>
		<l>Von Eurer Weisheit auf den Grund zu hören?</l>
</sp>
<sp who="#mephistopheles">
	<speaker>MEPHISTOPHELES.</speaker>
		<l>Was ich vermag, soll gern geschehn.</l>
</sp>

Un file XML-TEI conforme agli standard DraCor.

2. METODOLOGIA:

un approccio globale alla forma drammatica

  • Sull'esempio dei formalisti russi (B. Yarkho), di S. Marcus e dei moderni formalisti quantitativi
  • Cercare di operazionalizzare più componenti del dramma possibili (triade dialoghi - personaggi - trama) per ottenere un "ritratto quantitativo" dell'opera

concepire l'opera come una collezione di meta-dati (VETTORIZZAZIONE)

numero di personaggi numero di gruppi densità della rete grado medio della rete conteggio parole durante interazioni ....
Dramma_esempio_1 10 2 0.5714 3 16792 .....
Dramma_esempio_2 26 6 0.3422 2 40098 .....

Dramma_esempio_1 = {10, 2, 0.5714, 3, 16792, ...}

Dramma_esempio_2 = {26, 6, 0.3422, 2, 40098, ...}

Attraverso questo tipo di rappresentazioni matematica (chiamate vettori) è possibile misurare le proprietà dei drammi e le loro relazioni

Un possibile approccio: rappresentare i drammi-vettori come punti in un sistema di coordinate

(tramite metodi di riduzione della dimensionalità)

Musterstück_8

Musterstück_5

Musterstück_4

Musterstück_3

Musterstück_2

Musterstück_1

Musterstück_7

Musterstück_6

In questo modo, è possibile calcolare le distanze tra testi e individuare cluster basati su somiglianze strutturali

Se la teoria di una progressiva differenziazione formale del dramma nel corso del XVII secolo è corretta, la rappresentazione grafica dei testi secondo le loro proprietà dovrebbe mostrare una struttura simile:

 

           1561 (somiglianza)                                   1710 (differenziazione)

🇫🇷

 🇩🇪

🇬🇧

 🇮🇹

🇪🇸

  • Si è riscontrato in effetti un aumento della diversità formale (anche all'interno di singoli generi)...
  • ... ma non una compartimentazione netta su base nazionale (cf. teoria della rete culturale di Küpper/ teatrogrammi di Clubb)
  • È possibile tuttavia delineare profili quantitativi delle letterature teatrali nazionali basati su alcuni elementi distintivi (work-in-progress)
  • Valore del lavoro oltre all'argomento specifico:
    • proporre la vettorizzazione come metodo efficace per lo studio formale della letteratura in prospettiva quantitativa (cf. cultural analytics)

RIsultati PROVVISORI

riferimenti bibliografici

riferimenti bibliografici

Grazie per

l'attenzione!

plu.sh/criticacomputazionale

 

 

📧 giovannini@uni-potsdam.de

📧 luca.giovannini@unipd.it

Made with Slides.com