Abschlusspräsentation
4.2.2019
Marco Lehner, Anna Sauer,
Christopher Schmidt, Lukas Schwarz
Präsentationsstruktur
- Übersicht über die Pipeline
- XML-Parser
- Tripelextraktion
- Struktur des Wissensgraphs
- Demonstration zum Frontend
Pipeline
XML-Parser
- Auslesen des Dumps
- Error Handling (Dateien nicht wohlgeformt)
- Bereinigen des Texts*
- Filtern nach Schlagworten, Beschreibung und Named Entity Recognition (idealerweise erst nach der Koreferenzauflösung)
*"[...] ich möchte noch ergänzen, dass unser Datenmodell nicht trivial ist,
viele Daten gemeinsam in je einem Feld gespeichert werden, es in den
Artikeln sehr viele Referenzen zu anderen Objekten gibt und wir das
Ganze nicht dokumentieren, da wir zum Zugriff für Artikel den
dokumentierten Webservice bereit stellen."
MATE und CorZu
- MATE dependency parsing produziert das später noch benötigte CONLL Format
- CorZu löst Koreferenzen auf -> kommen in Zeitungstexten häufig vor
... beim Auftritt von Powerwrestlerin Hildegard Heinrich. Sie wird zudem bei den Olympischen Spielen 2019 zu sehen sein.
Tripelextraktion
Restrictive apposition handler
Der ebenfalls anwesende Herzogenenauracher Bürgermeister German Hacker dankte den Mitarbeitern der beiden Bürgermeisterbüros.
1. Enge Appositionen erkennen
2. Enge Appositionen entfernen
German Hacker dankte den Mitarbeitern der beiden Bürgermeisterbüros.
3. RDF-Tripel schreiben
German Hacker from_rah Bürgermeister .
PropS-DE
- TU Darmstadt
- Extrahiert OIE-Tupel aus Fließtext
- Kein Exception-Handling
- Nicht-nachvollziehbare Fehler
Das Salzwiesenrind aus Husum zum Beispiel, das momentan im Dry ager, dem Reifekühlschrank, hängt.
KeyError: n
"Ist doch nur ein Satz"
"Kann man doch catchen"
Vorsicht mit fremder, ungetesteter Software
Babelfy
*
* max. 10k Anfragen/Tag, danach bis zu 13 500 €/a
- Online REST-Service ist Bottleneck
- 1 s/r -> 2 Monate seq. Anfragen
- Disambiguierung und Linking muss lokal stattfinden.
- Sehr userfreundlich, sehr gute Ergebnisse
Struktur des Wissensgraphs
artikel1
MarionMuster
AndreasAutor
'Ein Titel'
dc:creator
dc:title
2.2.2019
dc:source
Basketball
spielen
_:bn1
Informatikerin
dc:created
artikel2
statement3
dc:source
dc:source
...
statement2
statement1
PER
rdf:type
dobj
rdf:object
rdf:object
rdf:subject
rdf:subject
rdf:predicate
rdf:predicate
from_rah
artikel1
MarionMuster
dc:source
Basketball
spielen
_:bn1
Informatikerin
artikel2
statement3
dc:source
statement1
PER
rdf:type
dobj
rdf:object
rdf:object
rdf:subject
rdf:subject
rdf:predicate
rdf:predicate
from_rah
statement4
statement5
artikel3
dc:source
dc:source
alter
mitglied_in
42
SPD
rdf:subject
rdf:subject
rdf:predicate
rdf:predicate
rdf:object
rdf:object
Django-Frontend
stunfisk Abschlusspräsentation
By acid_ann
stunfisk Abschlusspräsentation
- 230