props, FRED!
Präsentation der
Seminararbeit zu Semantic Web Readern
von Marco Lehner
Masterseminar Kulturinformatik
Wissensgraphen: Technologien und Anwendungen
Anwendungsszenario
Extraktion eines Wissensgraphen aus der Gesamtausgabe des Fränkischen Tages ab 2005 (~30 Mio. Sätze).
- Fokus: Personen
- Beziehungen
- Attribute (Alter, Beruf, etc.)
- Organisationen
- Beziehungen zu Personen
- Erkennen von Personen
- Extraktion der Beziehungen
- Korrekte Zuordnung
- Deutsche Sprache
- Hohe Präzision
- Abbilden von Beziehungen
- Triplifizierung
- Extraktion von Personen
- granulare Aufschlüsselung der Satzbestandteile
Aufgaben
Anforderungen
FRED
FRED erstellt aus natürlicher Sprache einen OWL-Graph
Input: "Donald Trump, the President of the United States, is married to Ivanka."
Quelle: http://wit.istc.cnr.it/stlab-tools/fred/demo/
Pipeline
Text processing
- Named Entity Recognition
- Coreference Resolution
- Discourse Representation Structures
Heuristic Based Triplification
- Reifikation
- Semantic Role Labeling
- Negation, Qualitäten, Modus etc.
RDF Graph Enrichment
- Disambiguation
- Entity Linking
Discourse Representation
Structures
Abb. und Text: Gangemi 2017
OpenIE als Alternative
- Extraktion von Beziehungen aus dem Text
- Kein Training
- Reine Syntax
- Hängt nur vom Dependency-Tree ab
→ Für viele Sprachen verfügbar - PropsDE auch für Deutsch portiert
Barack Obama, der junge Kandidat, wurde zum Präsidenten gewählt.
wählen:(obj:Barack Obama , prep_zu:Präsidenten )
wählen:(obj:der junge Kandidat , prep_zu:Präsidenten )
SameAs:(sameAs_arg:Barack Obama , sameAs_arg:der junge Kandidat )
Beispiel
Pipeline auf OpenIE-Basis
Text Processing
Triplification &
Enrichment
Quelle: Martinez-Rodriguez 2018a
stunfisk Pipeline
Hauptunterschiede
- Komplexitätsgefälle FRED - stunfisk
- Struktur des Graphen:
- FRED: Modellieren des Satzes
- stunfisk: Modellieren der Personen
- Diskursrepräsentation/Open IE
Vielen Dank für die Aufmerksamkeit.
Vergleich Triplification
Vergleich Enrichment
Fazit.
Discourse Representation Structures mit Boxer
"Cervical cancer is caused by a virus. That has been known for some time and it has led to a vaccine that seems to prevent it. Researchers have been looking for other cancers that may be caused by viruses."
OIE-Tupel mit JoBimText und PropsDE
verursachen:(subj:von einem Virus , obj:Gebärmutterhalskrebs)
KInf
By redadmiral
KInf
- 355