Abschlusspräsentation
Projekt Medieninformatik
Gruppe Korpus

Konzept

Rohdaten

  • Zwei große Korpora
  • Möglichst viele Kontexte abdecken
  • Eigene Texte und Textsammlungen
  • Formelle, gehobene Enzyklopädiesprache
  • Lockere, variable Umgangssprache

Vorverarbeitung

  • Abkürzungen
  • Grammatikalische Verschmelzungen
  • he's, it's
  • Unabhängige Parsing-Module

Extraktion

  • Parseroutput als Input
  • Erzeugen der n-Gramme
  • colibricore

Anforderungen

Erste Priorität

  • Präzision
  • Korrektes Encoding

Zweite Priorität

  • Effizienter Speicherzugriff
  • Kurze Laufzeiten

Architektur

Pipeline

Algorithmik

Informed Iterative Counting

Optimierungsmaßnahme von Colibricore:

"Bobby spielt Ball"

"Bobby spielt"

"spielt Ball"

in 2-gram-Korpus

in 2-gram-Korpus

verwerfen des 3-grams

aufnahme des 3-grams

verwerfen des 3-grams

Umsetzung

EPUB-Parser

  • offener Standard
  • weit verbreitet
  • XML und HTML
  • mit Standardtools zu verarbeiten

OpenSubtitles-Parser

  • flache XML-Struktur
  • Python etree
  • Sonderzeichen (Noten, #, Paragraphenzeichen)
  • Ignoriert Sätze < 5 Tokens
  • Threading

Wikiextractor¹

Input: Wikidump als XML

Output: Plaintext der Artikel

Formatierung: Newline separation

 

Entfernt Metadaten, Diskussionsseiten und Markup

1) https://github.com/attardi/wikiextractor

Ngram-Extraktion

Input: Newline Separated Files

Output: 1 – 5-gramme

 

Realisiert mit Colibricore

1) https://github.com/attardi/wikiextractor

Schnittstellen

Verfügbarmachen der Daten

  1. Ausgabe aller verfügbaren Korpora als Liste
  2. Rückgabe des Dateipfades zum n-Gram-Korpus

Korpusupload

  1. Korpus wird hochgeladen und gespeichert
  2. Korpus wird entsprechend geparst
  3. n-Gramme werden aus geparstem Korpus extrahiert
  4. Pfad zum n-Gram-Korpus wird zurückgegeben

Herausforderungen

Herausforderungen

  • Python Dependency Hell
  • Speichermengen
  • Parserlaufzeit
  • Flexibilität der Verarbeitung

https://xkcd.com/1987/

Evaluation

Extraktion

OpenSubtitles

https://fineartamerica.com/featured/wed-now-like-to-open-the-floor-to-shorter-steve-macone.html

Abschlusspräsentation Projekt MedieninformatikGruppe Korpus

By redadmiral

Abschlusspräsentation Projekt MedieninformatikGruppe Korpus

  • 74