stunfisk

 

restructuring local journalism

Was?

  • Extraktion von Daten aus unstrukturierten Texten
     
  • Wissensgenerierung: Verknüpfen einzelner Datenpunkte
     
  • Bündelung des ehemals verstreuten Wissens durch gezielte Abfragen

Wie?

Bilden von Tripeln aus natürlichsprachigem Text:

"Andreas Starke ist Bürgermeister."

bn:14397569n

Andreas Starke

Person

dbo:Mayor

dbo:label

dbo:profession

rdf:type

wd:Q126408

male

Hamburg

17. Sep 1956

wd:sex

wd:birthdate

wd:birthplace

owl:sameAs

Pipeline

PropS

  • Gabriel Stanovsky et al.
  • Syntax Based Proposition Extraction
  • Nur für Englisch

PropS-DE

  • Adaption auf Deutsch
  • TU Darmstadt
  • OIE-Tupel
  • Python 2  + Java

PropS-DE

  • Output für die Weiterverarbeitung vorbereiten
    • Regex, Schweiß und Tränen
    • Output direkt abgreifen
  • Bugfixes 
    • Linux vs. Windows
    • Ungefangene Exceptions
  • Laufzeit?

Laufzeit

0,166 Sekunden pro Satz

ca. 20 Tage für 10 Mio. Sätze

Linking

Linking und Extraction von Entitäten, Konzepten und Klassen über Babelfy.

 

Link auf Babelnet, Wikidata und DBpedia.

Triplifikator

PropsDE-Output: Tupel

Unser Zieloutput: RDF-Tripel

...

predicate

subject

direct

object

indirect

object 

modifier

subject

predicate

object

Abstraktion von der konkreten Syntax

hin zum semantischen Informationskern

Triplifikator

PropsDE-Output: Tupel

Unser Zieloutput: RDF-Tripel

einweihen:(subj:Andreas Starke , iobj:das Kapuzinerkrankenhaus, prep_in:Bamberg)

infrank:statement000001 a rdf:Statement .

infrank:statement000001 rdf:subject infrank:subjekt .
infrank:statement000001 rdf:predicate infrank:prädikat .
infrank:statement000001 rdf:object 'objekt' .

 

Triplifikator: Modellierungsentscheidungen

  • Blank Nodes zur Entzerrung der Tupelinformation

bn000001 

Andreas Starke

das Kapuziner-

krankenhaus

Bamberg

einweihen

iobj

prep_in

Triplifikator: Modellierungsentscheidungen

  • Blank Nodes bei fehlendem Objekt

infrank:statement000001 a rdf:Statement .

infrank:statement000001 rdf:subject infrank:Ainars Bagatskis .
infrank:statement000001 rdf:predicate infrank:zurücktreten .
infrank:statement000001 rdf:object _:bn000001 .

 

Triplifikator: Modellierungsentscheidungen

  • Passivkonstruktionen

infrank:statement000001 a rdf:Statement .

infrank:statement000001 rdf:subject _:bn000001 .
infrank:statement000001 rdf:predicate infrank:wählen .
infrank:statement000001 rdf:object _:bn000002 .

_:bn000002 infrank:obj 'Andreas Starke' .

_:bn000002 infrank:prep_zu 'Bürgermeister' .

Triplifikator: Modellierungsentscheidungen

  • Negation über Reifikation

infrank:statement000001 infrank:truthValue infrank:false .

Triplifikator: Special Features

Extraktion von Information aus Klammern

Andreas Starke (SPD) trinkt mit E.T.A. Hoffmann (242) und Hegel (Bamberger Zeitung) Kaffee.

Andreas Starke

E. T. A. Hoffmann

Hegel

242

SPD

Bamberger

Zeitung

Alter

Mitglied_in

from_brackets

Store

  • SPARQL-Endpoint
     
  • Reasoner
     
  • Open-Source

#TODO:

  • Koreferenzauflösung
  • Entity Linking
  • Predicate Mapping
  • Interface

Zwischenpraese

By redadmiral

Zwischenpraese

  • 77