Abschlusspräsentation

4.2.2019

Marco Lehner, Anna Sauer,

Christopher Schmidt, Lukas Schwarz

Präsentationsstruktur

  • Übersicht über die Pipeline
  • XML-Parser
  • Tripelextraktion
  • Struktur des Wissensgraphs
  • Demonstration zum Frontend

Pipeline

XML-Parser

  • Auslesen des Dumps
  • Error Handling (Dateien nicht wohlgeformt)
  • Bereinigen des Texts*
  • Filtern nach Schlagworten, Beschreibung und Named Entity Recognition (idealerweise erst nach der Koreferenzauflösung)

*"[...] ich möchte noch ergänzen, dass unser Datenmodell nicht trivial ist,

viele Daten gemeinsam in je einem Feld gespeichert werden, es in den

Artikeln sehr viele Referenzen zu anderen Objekten gibt und wir das

Ganze nicht dokumentieren, da wir zum Zugriff für Artikel den

dokumentierten Webservice bereit stellen."

MATE und CorZu

  • MATE dependency parsing produziert das später noch benötigte CONLL Format
  • CorZu löst Koreferenzen auf -> kommen in Zeitungstexten häufig vor

... beim Auftritt von Powerwrestlerin Hildegard Heinrich. Sie wird zudem bei den Olympischen Spielen 2019 zu sehen sein.

Tripelextraktion

Restrictive apposition handler

Der ebenfalls anwesende Herzogenenauracher Bürgermeister German Hacker dankte den Mitarbeitern der beiden Bürgermeisterbüros.

1. Enge Appositionen erkennen

2. Enge Appositionen entfernen

German Hacker dankte den Mitarbeitern der beiden Bürgermeisterbüros. 

3. RDF-Tripel schreiben

German Hacker from_rah Bürgermeister .

PropS-DE

  • TU Darmstadt
  • Extrahiert OIE-Tupel aus Fließtext
  • Kein Exception-Handling
  • Nicht-nachvollziehbare Fehler

Das Salzwiesenrind aus Husum zum Beispiel, das momentan im Dry ager, dem Reifekühlschrank, hängt.

KeyError: n

"Ist doch nur ein Satz"

"Kann man doch catchen"

Vorsicht mit fremder, ungetesteter Software

Babelfy

*

* max. 10k Anfragen/Tag, danach bis zu 13 500 €/a

  • Online REST-Service ist Bottleneck
    • 1 s/r -> 2 Monate seq. Anfragen
  • Disambiguierung und Linking muss lokal stattfinden.
  • Sehr userfreundlich, sehr gute Ergebnisse

Struktur des Wissensgraphs

artikel1

MarionMuster

AndreasAutor

'Ein Titel'

dc:creator

dc:title

2.2.2019

dc:source

Basketball

spielen

_:bn1

Informatikerin

dc:created

artikel2

statement3

dc:source

dc:source

...

statement2

statement1

PER

rdf:type

dobj

rdf:object

rdf:object

rdf:subject

rdf:subject

rdf:predicate

rdf:predicate

from_rah

artikel1

MarionMuster

dc:source

Basketball

spielen

_:bn1

Informatikerin

artikel2

statement3

dc:source

statement1

PER

rdf:type

dobj

rdf:object

rdf:object

rdf:subject

rdf:subject

rdf:predicate

rdf:predicate

from_rah

statement4

statement5

artikel3

dc:source

dc:source

alter

mitglied_in

42

SPD

rdf:subject

rdf:subject

rdf:predicate

rdf:predicate

rdf:object

rdf:object

Django-Frontend

stunfisk Abschlusspräsentation

By acid_ann

stunfisk Abschlusspräsentation

  • 221