props, FRED!

 

Präsentation der

Seminararbeit zu Semantic Web Readern

von Marco Lehner

Masterseminar Kulturinformatik

Wissensgraphen: Technologien und Anwendungen

Anwendungsszenario

Extraktion eines Wissensgraphen aus der Gesamtausgabe des Fränkischen Tages ab 2005 (~30 Mio. Sätze).
 

  • Fokus: Personen
    • Beziehungen
    • Attribute (Alter, Beruf, etc.)
    • Organisationen
      • Beziehungen zu Personen
  • Erkennen von Personen
  • Extraktion der Beziehungen
  • Korrekte Zuordnung
  • Deutsche Sprache
  • Hohe Präzision
  • Abbilden von Beziehungen
  • Triplifizierung
    • Extraktion von Personen
    • granulare Aufschlüsselung der Satzbestandteile

Aufgaben

Anforderungen

FRED

FRED erstellt aus natürlicher Sprache einen OWL-Graph

 

 

 

 

 

 

Input: "Donald Trump, the President of the United States, is married to Ivanka."

Quelle: http://wit.istc.cnr.it/stlab-tools/fred/demo/

Pipeline

Text processing

  • Named Entity Recognition
  • Coreference Resolution
  • Discourse Representation Structures

Heuristic Based Triplification

  • Reifikation
  • Semantic Role Labeling
  • Negation, Qualitäten, Modus etc.

RDF Graph Enrichment

  • Disambiguation
  • Entity Linking

Discourse Representation
Structures

Abb. und Text: Gangemi 2017

OpenIE als Alternative

  • Extraktion von Beziehungen aus dem Text
    • Kein Training
    • Reine Syntax
  • Hängt nur vom Dependency-Tree ab
    → Für viele Sprachen verfügbar
  • PropsDE auch für Deutsch portiert

Barack Obama, der junge Kandidat, wurde zum Präsidenten gewählt.
 

wählen:(obj:Barack Obama , prep_zu:Präsidenten )
wählen:(obj:der junge Kandidat , prep_zu:Präsidenten )
SameAs:(sameAs_arg:Barack Obama , sameAs_arg:der junge Kandidat )

Beispiel

Pipeline auf OpenIE-Basis

Text Processing

Triplification &
Enrichment

Quelle: Martinez-Rodriguez 2018a

stunfisk Pipeline

Hauptunterschiede

  • Komplexitätsgefälle FRED - stunfisk
  • Struktur des Graphen:
    • FRED: Modellieren des Satzes
    • stunfisk: Modellieren der Personen
  • Diskursrepräsentation/Open IE

Vielen Dank für die Aufmerksamkeit.

Vergleich Triplification

Vergleich Enrichment

Fazit.

Discourse Representation Structures mit Boxer

"Cervical cancer is caused by a virus. That has been known for some time and it has led to a vaccine that seems to prevent it. Researchers have been looking for other cancers that may be caused by viruses."

OIE-Tupel mit JoBimText und PropsDE

verursachen:(subj:von einem Virus , obj:Gebärmutterhalskrebs)

KInf

By redadmiral

KInf

  • 367