Abschlusspräsentation
Projekt Medieninformatik
Gruppe Korpus
Konzept
Rohdaten
- Zwei große Korpora
- Möglichst viele Kontexte abdecken
- Eigene Texte und Textsammlungen
- Formelle, gehobene Enzyklopädiesprache
- Lockere, variable Umgangssprache
Vorverarbeitung
- Abkürzungen
- Grammatikalische Verschmelzungen
- he's, it's
- Unabhängige Parsing-Module
Extraktion
- Parseroutput als Input
- Erzeugen der n-Gramme
- colibricore
Anforderungen
Erste Priorität
- Präzision
- Korrektes Encoding
Zweite Priorität
- Effizienter Speicherzugriff
- Kurze Laufzeiten
Architektur
Pipeline
Algorithmik
Informed Iterative Counting
Optimierungsmaßnahme von Colibricore:
"Bobby spielt Ball"
"Bobby spielt"
"spielt Ball"
in 2-gram-Korpus
in 2-gram-Korpus
verwerfen des 3-grams
aufnahme des 3-grams
verwerfen des 3-grams
Umsetzung
EPUB-Parser
- offener Standard
- weit verbreitet
- XML und HTML
- mit Standardtools zu verarbeiten
OpenSubtitles-Parser
- flache XML-Struktur
- Python etree
- Sonderzeichen (Noten, #, Paragraphenzeichen)
- Ignoriert Sätze < 5 Tokens
- Threading
Wikiextractor¹
Input: Wikidump als XML
Output: Plaintext der Artikel
Formatierung: Newline separation
Entfernt Metadaten, Diskussionsseiten und Markup
1) https://github.com/attardi/wikiextractor
Ngram-Extraktion
Input: Newline Separated Files
Output: 1 – 5-gramme
Realisiert mit Colibricore
1) https://github.com/attardi/wikiextractor
Schnittstellen
Verfügbarmachen der Daten
- Ausgabe aller verfügbaren Korpora als Liste
- Rückgabe des Dateipfades zum n-Gram-Korpus
Korpusupload
- Korpus wird hochgeladen und gespeichert
- Korpus wird entsprechend geparst
- n-Gramme werden aus geparstem Korpus extrahiert
- Pfad zum n-Gram-Korpus wird zurückgegeben
Herausforderungen
Herausforderungen
- Python Dependency Hell
- Speichermengen
- Parserlaufzeit
- Flexibilität der Verarbeitung
https://xkcd.com/1987/
Evaluation
Extraktion
OpenSubtitles
https://fineartamerica.com/featured/wed-now-like-to-open-the-floor-to-shorter-steve-macone.html
Abschlusspräsentation Projekt MedieninformatikGruppe Korpus
By redadmiral
Abschlusspräsentation Projekt MedieninformatikGruppe Korpus
- 74