stunfisk
restructuring local journalism
Was?
- Extraktion von Daten aus unstrukturierten Texten
- Wissensgenerierung: Verknüpfen einzelner Datenpunkte
- Bündelung des ehemals verstreuten Wissens durch gezielte Abfragen
Wie?
Bilden von Tripeln aus natürlichsprachigem Text:
"Andreas Starke ist Bürgermeister."
bn:14397569n
Andreas Starke
Person
dbo:Mayor
dbo:label
dbo:profession
rdf:type
wd:Q126408
male
Hamburg
17. Sep 1956
wd:sex
wd:birthdate
wd:birthplace
owl:sameAs
Pipeline
PropS
- Gabriel Stanovsky et al.
- Syntax Based Proposition Extraction
- Nur für Englisch
PropS-DE
- Adaption auf Deutsch
- TU Darmstadt
- OIE-Tupel
- Python 2 + Java
PropS-DE
- Output für die Weiterverarbeitung vorbereiten
- Regex, Schweiß und Tränen
- Output direkt abgreifen
- Bugfixes
- Linux vs. Windows
- Ungefangene Exceptions
- Laufzeit?
Laufzeit
0,166 Sekunden pro Satz
ca. 20 Tage für 10 Mio. Sätze
Linking
Linking und Extraction von Entitäten, Konzepten und Klassen über Babelfy.
Link auf Babelnet, Wikidata und DBpedia.
Triplifikator
PropsDE-Output: Tupel
Unser Zieloutput: RDF-Tripel
...
predicate
subject
direct
object
indirect
object
modifier
subject
predicate
object
Abstraktion von der konkreten Syntax
hin zum semantischen Informationskern
Triplifikator
PropsDE-Output: Tupel
Unser Zieloutput: RDF-Tripel
einweihen:(subj:Andreas Starke , iobj:das Kapuzinerkrankenhaus, prep_in:Bamberg)
infrank:statement000001 a rdf:Statement .
infrank:statement000001 rdf:subject infrank:subjekt .
infrank:statement000001 rdf:predicate infrank:prädikat .
infrank:statement000001 rdf:object 'objekt' .
Triplifikator: Modellierungsentscheidungen
- Blank Nodes zur Entzerrung der Tupelinformation
bn000001
Andreas Starke
das Kapuziner-
krankenhaus
Bamberg
einweihen
iobj
prep_in
Triplifikator: Modellierungsentscheidungen
- Blank Nodes bei fehlendem Objekt
infrank:statement000001 a rdf:Statement .
infrank:statement000001 rdf:subject infrank:Ainars Bagatskis .
infrank:statement000001 rdf:predicate infrank:zurücktreten .
infrank:statement000001 rdf:object _:bn000001 .
Triplifikator: Modellierungsentscheidungen
- Passivkonstruktionen
infrank:statement000001 a rdf:Statement .
infrank:statement000001 rdf:subject _:bn000001 .
infrank:statement000001 rdf:predicate infrank:wählen .
infrank:statement000001 rdf:object _:bn000002 .
_:bn000002 infrank:obj 'Andreas Starke' .
_:bn000002 infrank:prep_zu 'Bürgermeister' .
Triplifikator: Modellierungsentscheidungen
- Negation über Reifikation
infrank:statement000001 infrank:truthValue infrank:false .
Triplifikator: Special Features
Extraktion von Information aus Klammern
Andreas Starke (SPD) trinkt mit E.T.A. Hoffmann (242) und Hegel (Bamberger Zeitung) Kaffee.
Andreas Starke
E. T. A. Hoffmann
Hegel
242
SPD
Bamberger
Zeitung
Alter
Mitglied_in
from_brackets
Store
- SPARQL-Endpoint
- Reasoner
- Open-Source
#TODO:
- Koreferenzauflösung
- Entity Linking
- Predicate Mapping
- Interface
Zwischenpraese
By redadmiral
Zwischenpraese
- 90