Open Information Extraction gestützte Pipeline für einen deutschsprachigen Wissensgraphen

Marco Lehner, Anna Sauer,

Christopher Schmidt, Lukas Schwarz

 

Otto-Friedrich-Universität Bamberg

Wissensgraph

Alex

Birte

Carl

Dora

Ellen

Vater

Chefin

Nachbar

Kollegin

Chefin

Freundin

Struktur, die Entitäten (Personen, Organisationen, Orte)

und die Beziehungen zwischen Entitäten repräsentiert

Suchbild: Wo ist der Wissensgraph?

Screenshot von: https://www.google.de/search?source=hp&ei=KX6IXeCyKeKCk74Pt5iqiAU&q=Thomas+Jefferson&oq=Thomas+Jefferson&gs_l=psy-ab.3..0i131j0l9.1029.3173..3482...0.0..0.120.1434.14j2......0....1..gws-wiz.UdoYx9EbjQ8&ved=0ahUKEwig6924v-bkAhViwcQBHTeMClEQ4dUDCAc&uact=5

"Things not Strings"¹

Inhalte aus dem Google Knowledge Graph beziehen sich auf andere Entitäten, nicht nur auf ihre Stringrepräsentation.

Bildquelle: https://en.wikipedia.org/wiki/Knowledge_Graph#/media/File:Google_Knowledge_Panel.png
1) https://www.blog.google/products/search/introducing-knowledge-graph-things-not/

Methoden zur Erstellung eines Wissensgraphen 🧠

  • manuelles Einpflegen von Fakten: Wikidata
  • Informationsextraktion aus strukturierten Daten: Google Knowledge Graph
  • Informationsextraktion aus unstrukturierten Daten (Text): Open Information Extraction

Open Information Extraction

Traditional Information Extraction

  • supervised
  • zu extrahierende Relationen stehen von Anfang an fest
  • oft domänenspezifisch
  • unsupervised
  • keine Einschränkung auf festgelegte Relationen und Domänen
  • "The idea is to learn how relations are expressed in general in written text, using unlexicalised features, e.g. part-of-speech tags or dependency relations." (Bassa2018)

Semantik

Entitäten

Fokus auf

Der Graph versucht, die Struktur des zugrundeliegen-den Dokuments möglichst exakt abzubilden. Beispiel: FRED (Gangemi2017)

Der Graph wird um die im Text behandelten Akteure herum entworfen. Beispiel: AWAKE (Boschee2014)

Pipeline

Schaffen der Textbasis

16.000 lokaljournalistische Artikel aus dem Archiv der Mediengruppe Oberfranken (ab 2005)

 

  • Auslieferung als XML-Dump
  • XML-Parser
  • Schreiben der Metadaten in den Tripelstore

📰

POS-Tagging und Dependency Parsing

Annotation jedes Tokens mit seiner Wortart (= Part of Speech)

Aufschlüsseln der dependenzgrammatischen Struktur jedes Satzes

 

  • Grundlage für weitere Verarbeitungsschritte
  • Verwendung von spaCy 🚀

Koreferenzauflösung (CRR)

Wörter beziehen sich auf zuvor benannte Entitäten:

 

Miles Davis war ein amerikanischer Jazz-Musiker.
Er veröffentlichte über 100 Alben.

 

Tool unserer Wahl: CorZu (Tuggener2016)

Entity Linking

"Andreas Starke ist Bürgermeister."

bn:14397569n

Andreas Starke

Person

dbo:Mayor

dbo:label

dbo:profession

rdf:type

wd:Q126408

male

Hamburg

17. Sep 1956

wd:sex

wd:birthdate

wd:birthplace

owl:sameAs

Zuweisen einer Entität zu ihrer Entsprechung in einer KB.

Relation Extraction

  • Open Information Extraction
  • heuristikbasiert
  • Dependency Parsing

"1996 besiegte Deep Blue Garri Kasparow im Schach."

I2E: pred: besiegen, sb: Deep Blue, da: Garri Kasparow,

mod: im Schach, mod: 1996

  • im ersten Prototypen: ProPS-DE (Falke2016)
  • aktuell Entwicklung eines eigenen OIE-Werkzeugs zur Extraktion von Tupeln: Information Extraction Engine (I2E)

RDF-Tripelbildung

@prefix hedwig: <https://hedwig.cc/hedwig/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
hedwig:Deep_Blue rdf:label "Deep Blue" .
hedwig:Garri_Kasparow rdf:label "Garri Kasparow" .
hedwig:Deep_Blue hedwig:besiegen hedwig:Garri_Kasparow .

pred: besiegen, sb: Deep Blue, da: Garri Kasparow,

mod: im Schach, mod: 1996

pred: besiegen, sb: Deep Blue, ob: Garri Kasparow

Ontologie

"an explicit account of a shared understanding [...] in a given area"

(Uschold1996)

Entwicklung seit Abgabe des Papers

  • Förderung durch MGO Launchpad
  • PropsDE durch eigenes Tool I2E ersetzt
  • Implementierung der Koreferenzauflösung (CorZu - Tuggener2016)
  • Implementierung des Entity Linking (AGDISTIS - Usbeck2014)

Weiterer Ausblick

Fokus auf Anwendungsbereiche:

  • Recommender Systeme mit graphbasierten Ähnlichkeitsmaßen für Texte
  • Lösen von Information Retrieval Problemen
  • weitere Domänen neben Lokaljournalismus: beispielsweise historische Archive, wissenschaftliche Paper

Fragen und Anregungen?

Link zur Präsentation:

https://bit.ly/2kNVUja

Literatur

Bassa, Akim, Mark Kroll, and Roman Kern. “GerIE - An Open Information Extraction System for the German Language.” J-Jucs 24, no. 1 (January 28, 2018): 2–24.

Boschee, E., M. Freedman, S. Khanwalkar, A. Kumar, A. Srivastava, and R. Weischedel. “Researching Persons Organizations: AWAKE: From Text to an Entity-Centric Knowledge Base.” In 2014 IEEE International Conference on Big Data (Big Data), 1030–39, 2014. https://doi.org/10.1109/BigData.2014.7004337.

Falke, Tobias, Gabriel Stanovsky, Iryna Gurevych, and Ido Dagan. “Porting an Open Information Extraction System from English to German.” In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP), 892–898. Austin, Texas: Association for Computational Linguistics, 2016. https://aclweb.org/anthology/D16-1086.

Gangemi, Aldo, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, and Misael Mongiovì. “Semantic Web Machine Reading with FRED.” Semantic Web 8 (2017): 873–93. https://doi.org/10.3233/SW-160240.

Ponza, Marco. “Algorithms for Knowledge and Information Extraction in Text with Wikipedia.” University of Pisa, 2018.

Tuggener, Don. “Incremental Coreference Resolution for German.” PhD Thesis, University of Zurich, 2016. https://doi.org/10.5167/uzh-124915.

Usbeck, Ricardo, Axel-Cyrille Ngonga Ngomo, Michael Röder, Daniel Gerber, Sandro Athaide Coelho, Sören Auer, and Andreas Both. “AGDISTIS - Graph-Based Disambiguation of Named Entities Using Linked Data.” In The Semantic Web – ISWC 2014, edited by Peter Mika, Tania Tudorache, Abraham Bernstein, Chris Welty, Craig Knoblock, Denny Vrandečić, Paul Groth, Natasha Noy, Krzysztof Janowicz, and Carole Goble, 457–71. Lecture Notes in Computer Science. Springer International Publishing, 2014.

Uschold, Mike, und Michael Gruninger. „Ontologies: Principles, methods and applications“. The Knowledge Engineering Review 11, Nr. 2 (1996): 93–136. https://doi.org/10.1017/S0269888900007797.

Open Information Extraction gestützte Pipeline für einen deutschsprachigen Wissensgraphen

By acid_ann

Open Information Extraction gestützte Pipeline für einen deutschsprachigen Wissensgraphen

  • 167