Open Information Extraction gestützte Pipeline für einen deutschsprachigen Wissensgraphen
Marco Lehner, Anna Sauer,
Christopher Schmidt, Lukas Schwarz
Otto-Friedrich-Universität Bamberg
Wissensgraph
Alex
Birte
Carl
Dora
Ellen
Vater
Chefin
Nachbar
Kollegin
Chefin
Freundin
Struktur, die Entitäten (Personen, Organisationen, Orte)
und die Beziehungen zwischen Entitäten repräsentiert
Suchbild: Wo ist der Wissensgraph?
Screenshot von: https://www.google.de/search?source=hp&ei=KX6IXeCyKeKCk74Pt5iqiAU&q=Thomas+Jefferson&oq=Thomas+Jefferson&gs_l=psy-ab.3..0i131j0l9.1029.3173..3482...0.0..0.120.1434.14j2......0....1..gws-wiz.UdoYx9EbjQ8&ved=0ahUKEwig6924v-bkAhViwcQBHTeMClEQ4dUDCAc&uact=5
"Things not Strings"¹
Inhalte aus dem Google Knowledge Graph beziehen sich auf andere Entitäten, nicht nur auf ihre Stringrepräsentation.
Bildquelle: https://en.wikipedia.org/wiki/Knowledge_Graph#/media/File:Google_Knowledge_Panel.png
1) https://www.blog.google/products/search/introducing-knowledge-graph-things-not/
Methoden zur Erstellung eines Wissensgraphen 🧠
- manuelles Einpflegen von Fakten: Wikidata
- Informationsextraktion aus strukturierten Daten: Google Knowledge Graph
- Informationsextraktion aus unstrukturierten Daten (Text): Open Information Extraction
Open Information Extraction
Traditional Information Extraction
- supervised
- zu extrahierende Relationen stehen von Anfang an fest
- oft domänenspezifisch
- unsupervised
- keine Einschränkung auf festgelegte Relationen und Domänen
-
"The idea is to learn how relations are expressed in general in written text, using unlexicalised features, e.g. part-of-speech tags or dependency relations." (Bassa2018)
Semantik
Entitäten
Fokus auf
Der Graph versucht, die Struktur des zugrundeliegen-den Dokuments möglichst exakt abzubilden. Beispiel: FRED (Gangemi2017)
Der Graph wird um die im Text behandelten Akteure herum entworfen. Beispiel: AWAKE (Boschee2014)
Pipeline
Schaffen der Textbasis
16.000 lokaljournalistische Artikel aus dem Archiv der Mediengruppe Oberfranken (ab 2005)
- Auslieferung als XML-Dump
- XML-Parser
- Schreiben der Metadaten in den Tripelstore
📰
POS-Tagging und Dependency Parsing
Annotation jedes Tokens mit seiner Wortart (= Part of Speech)
Aufschlüsseln der dependenzgrammatischen Struktur jedes Satzes
- Grundlage für weitere Verarbeitungsschritte
- Verwendung von spaCy 🚀
Koreferenzauflösung (CRR)
Wörter beziehen sich auf zuvor benannte Entitäten:
Miles Davis war ein amerikanischer Jazz-Musiker.
Er veröffentlichte über 100 Alben.
Tool unserer Wahl: CorZu (Tuggener2016)
Entity Linking
"Andreas Starke ist Bürgermeister."
bn:14397569n
Andreas Starke
Person
dbo:Mayor
dbo:label
dbo:profession
rdf:type
wd:Q126408
male
Hamburg
17. Sep 1956
wd:sex
wd:birthdate
wd:birthplace
owl:sameAs
Zuweisen einer Entität zu ihrer Entsprechung in einer KB.
Relation Extraction
- Open Information Extraction
- heuristikbasiert
- Dependency Parsing
"1996 besiegte Deep Blue Garri Kasparow im Schach."
I2E: pred: besiegen, sb: Deep Blue, da: Garri Kasparow,
mod: im Schach, mod: 1996
- im ersten Prototypen: ProPS-DE (Falke2016)
- aktuell Entwicklung eines eigenen OIE-Werkzeugs zur Extraktion von Tupeln: Information Extraction Engine (I2E)
RDF-Tripelbildung
@prefix hedwig: <https://hedwig.cc/hedwig/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
hedwig:Deep_Blue rdf:label "Deep Blue" . hedwig:Garri_Kasparow rdf:label "Garri Kasparow" . hedwig:Deep_Blue hedwig:besiegen hedwig:Garri_Kasparow .
pred: besiegen, sb: Deep Blue, da: Garri Kasparow,
mod: im Schach, mod: 1996
pred: besiegen, sb: Deep Blue, ob: Garri Kasparow
Ontologie
"an explicit account of a shared understanding [...] in a given area"
(Uschold1996)
Entwicklung seit Abgabe des Papers
- Förderung durch MGO Launchpad
- PropsDE durch eigenes Tool I2E ersetzt
- Implementierung der Koreferenzauflösung (CorZu - Tuggener2016)
- Implementierung des Entity Linking (AGDISTIS - Usbeck2014)
Weiterer Ausblick
Fokus auf Anwendungsbereiche:
- Recommender Systeme mit graphbasierten Ähnlichkeitsmaßen für Texte
- Lösen von Information Retrieval Problemen
- weitere Domänen neben Lokaljournalismus: beispielsweise historische Archive, wissenschaftliche Paper
Fragen und Anregungen?
Link zur Präsentation:
https://bit.ly/2kNVUja
Literatur
Bassa, Akim, Mark Kroll, and Roman Kern. “GerIE - An Open Information Extraction System for the German Language.” J-Jucs 24, no. 1 (January 28, 2018): 2–24.
Boschee, E., M. Freedman, S. Khanwalkar, A. Kumar, A. Srivastava, and R. Weischedel. “Researching Persons Organizations: AWAKE: From Text to an Entity-Centric Knowledge Base.” In 2014 IEEE International Conference on Big Data (Big Data), 1030–39, 2014. https://doi.org/10.1109/BigData.2014.7004337.
Falke, Tobias, Gabriel Stanovsky, Iryna Gurevych, and Ido Dagan. “Porting an Open Information Extraction System from English to German.” In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP), 892–898. Austin, Texas: Association for Computational Linguistics, 2016. https://aclweb.org/anthology/D16-1086.
Gangemi, Aldo, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, and Misael Mongiovì. “Semantic Web Machine Reading with FRED.” Semantic Web 8 (2017): 873–93. https://doi.org/10.3233/SW-160240.
Ponza, Marco. “Algorithms for Knowledge and Information Extraction in Text with Wikipedia.” University of Pisa, 2018.
Tuggener, Don. “Incremental Coreference Resolution for German.” PhD Thesis, University of Zurich, 2016. https://doi.org/10.5167/uzh-124915.
Usbeck, Ricardo, Axel-Cyrille Ngonga Ngomo, Michael Röder, Daniel Gerber, Sandro Athaide Coelho, Sören Auer, and Andreas Both. “AGDISTIS - Graph-Based Disambiguation of Named Entities Using Linked Data.” In The Semantic Web – ISWC 2014, edited by Peter Mika, Tania Tudorache, Abraham Bernstein, Chris Welty, Craig Knoblock, Denny Vrandečić, Paul Groth, Natasha Noy, Krzysztof Janowicz, and Carole Goble, 457–71. Lecture Notes in Computer Science. Springer International Publishing, 2014.
Uschold, Mike, und Michael Gruninger. „Ontologies: Principles, methods and applications“. The Knowledge Engineering Review 11, Nr. 2 (1996): 93–136. https://doi.org/10.1017/S0269888900007797.
Open Information Extraction gestützte Pipeline für einen deutschsprachigen Wissensgraphen
By acid_ann
Open Information Extraction gestützte Pipeline für einen deutschsprachigen Wissensgraphen
- 167