Wordnet to wielojęzyczna leksykalno-semantyczna baza danych. Zawiera informacje na temat rzeczowników, czasowników, przymiotników i przysłówków w wielu językach. Te wszystkie informacje są organizowane wewnątrz najważniejszego pojęcia - synsetu.
A synset is a set of words with the same part-of-speech that can be interchanged in a certain context.
Synset może być związany z innymi sysnetami poprzez relacje semantyczne, m.in. hyperonymy czy meronymy
Za pomocą tych i innych powiązań semantycznych / pojęciowych wszystkie znaczenia słowa w języku mogą być ze sobą połączone, tworząc ogromną sieć.
Te sieci semantyczne informują o leksykalizacji wzorców językowych, o gęstości pojęciowej obszarów słownikowych oraz o rozkładzie rozróżnień semantycznych czy stosunków w różnych dziedzinach słownictwa.
Tworzenie takiej sieci jest możliwe dzięki m.in. Princeton WordNet.
W bazie EuroWordNet można przejść od jednego synsetu w sieci wordnet do synsety w innej sieci, która jest powiązana tą samą koncepcją w Princeton WordNet. Taka wielojęzyczna baza danych jest przydatna do wyszukiwania informacji międzykulturowych, do przekazywania informacji z jednego zasobu do innego lub do porównywania różnych sformułowań. Porównanie może nam powiedzieć coś o spójności stosunków w słowach, gdzie różnice mogą wskazywać na niespójność lub specyficzne dla języka właściwości zasobów, a także właściwości samego języka.
Mogłoby się wydawać, iż WordNet Princeton i inne ontologie typu wordnet to to samo, ale przede wszystkim pojęcie synsetu i główne relacje semantyczne zostały przejęte w dalszych ontologiach. Wprowadzono szczególne zmiany w projekcie bazy danych, które są głównie motywowane następującymi celami:
Najważniejszą różnicą EuroWordNet i ontologii typu wordnet w odniesieniu do WordNet jest wielojęzyczność, która jednakże rodzi pewne problemy dotyczące statusu informacji monojęzycznych w słowach.
Zasadniczo wielojęzyczność osiąga się przez dodanie relacji ekwiwalentnej dla każdego z synsetów w języku do najbliższego synsetu w systemie Princeton WordNet. Synsety powiązane z tym samym synonimem mają być równoważne lub bliskie znaczeniu i mogą być porównywane.
Jeśli "równoważne" słowa są powiązane w różny sposób w różnych zasobach, musimy podjąć decyzję o słuszności tych różnic.
in the Dutch wordnet we see that hond (dog) is both classified as huisdier (pet) and zoogdier (mammal). However, there is no equivalent for pet in Italian, and the Italian cane, which is linked to the same synset dog, is only classified as a mammal in the Italian wordnet.
Językowa ontologia (ang. linguistic ontology) dokładnie odzwierciedla leksykalizację i relacje między słowami w języku. Jest to "wordnet" w prawdziwym tego słowa znaczeniu, a zatem zawiera cenne informacje o konceptualizacjach, które są leksykalizowane przy użyciu dostępnego zasobu słów i wyrażeń w języku.
W celu budowy oraz rozwoju takiej ontologii dokonuje się jednoznacznego podziału na moduły zależne od danego języka i moduły niezależne językowo. Każdy moduł językowy jest system specyficznych dla języka wewnętrznych stosunków językowych między synsetami, zaś relacje pomiędzy synsetami z różnych języków są zarządzane przez Inter-Lingual-Index (ILI). Każdy synset ma co najmniej jedną równoważną relację ze swoim odpowiednikiem w ILI.
Niektóre niezależne od języka struktury wewnątrz ILI są dostarczane przez dwie niezależne ontologie, które mogą być powiązane z rekordami w ILI:
Via the language-internal relations, the Top Concept can be further inherited by all other related language-specific concepts. The main purpose of the Top Ontology is to provide a common framework for the most important concepts in all the wordnets. It consists of 63 basic semantic distinctions that classify a set of 1300 ILI-records representing the most important concepts in the different wordnets.
Bardzo ważną różnicą pomiędzy Princeton WordNet a ontologiami typu wordnet jest podejście do relacji między słowami na płaszczyźnie części mowy.
1stOrderEntity
Any concrete entity (publicly) perceivable by the senses and located at any point in time, in a three-dimensional space, e.g. object, substance, animal, plant, man, woman, instrument.
2ndOrderEntity
Any Static Situation (property, relation) or Dynamic Situation, which cannot be grasped, heart, seen, felt as an independent physical thing. They can be located in time and occur or take place rather than exist; e.g. be, happen, cause, move, continue, occur, apply.
3rdOrderEntity
Any unobservable proposition that exists independently of time and space. They can be true or false rather than real. They can be asserted or denied, remembered or forgotten. E.g. idea, thought, information, theory, plan, intention.
Ontologie typu wordnet (np. EuroWordNet) reprezentują bardziej ogólny model semantyczny w stosunku do Princeton WordNet, który zawiera różne typy relacji semantycznych, które można wyciągnąć z słowników (i innych źródeł) do wykorzystania w aplikacjach NLP. Definicja takiego szerokiego modelu nie oznacza jednak, że zapewniono wszelkie możliwe relacje dla wszystkich znaczeń. Biorąc pod uwagę ograniczenia czasowe i budżetowe projektu, kodowanie dodatkowych stosunków semantycznych ograniczało się do tych znaczeń, które mogą być (pół) automatycznie uzyskiwane ze źródeł lub do tych znaczeń, które nie mogą być powiązane prawidłowo tylko za pomocą bardziej podstawowych powiązań .
Stworzono specjalne testy substytucji oraz ramy
diagnostyczne w celu sprawdzenia relacji miedzy synsetami. Przykładowo, wstawienie dwóch słów do zdań testowych spowoduje głównie ocenę "normalności" i "anomalii", na podstawie której można określić związek. Synsety oraz ich relacje mogą być identyfikowane na podstawie możliwości zastąpienia słowa innym przez określony kontekst.
a. X is a Noun1 therefore X is a Noun2
b. Y Verb(-phrase)1 therefore Y Verb(-phrase)
For instance, fiddle and violin are synonyms on the basis of the ‘normality’ of (1a) and (1b), while dog and animal are not, due to the ‘abnormality’ of (2b); in a similar way, enter and go into are synonyms, while walk and move are not:
1a. It is a fiddle therefore it is a violin.
2a. It is a violin therefore it is a fiddle.
3a. It is a dog therefore it is an animal.
4a. *It is an animal therefore it is a dog.
1b. John entered the room therefore John went into the room.
2b. John went into the room therefore John entered the room.
3b. The dog walked therefore the dog moved.
4b. *The dog moved therefore the dog walked.
Takie testy były tworzone dla każdej relacji w ontologii typu wordnet (i dla każdego języka). Należy pamiętać, że takie testy obsługują tylko i wyłącznie relacje semantyczne (nie powinny badać nic poza tym).
Poza testami, do kształtowania relacji można użyć:
Należy pamiętać, że jeżeli dwa słowa są połączone jednym typem relacji semantycznej, to nie mogą być połączone żadnym innym. To z pozoru łatwą zasadę bardzo trudno utrzymać, zwłaszcza w przypadku wykorzystania kilku języków.
Istotną różnicą pomiędzy bazą danych EWN a strukturą WN1.5 jest możliwość dodawania etykiet do relacji. Te etykiety są potrzebne, aby rozróżnić dokładne konsekwencje semantyczne wynikające z zdefiniowanych relacji. Wyróżniono następujące typy etykiet:
door1 -- (a swinging or sliding barrier that will close the entrance to a room or building; “he knocked on the door”; “he slammed the door as he left”) PART OF: doorway, door, entree, entry, portal, room access
door 6 -- (a swinging or sliding barrier that will close off access into a car; “she forgot to lock the doors of her car”) PART OF: car, auto, automobile, machine, motorcar.
factive: event E1 implies the causation of E2
“to kill causes to die”non-factive: E1 probably or likely causes event E2 or E1 is intended to cause some event E2
“to search may cause to find”
macaque HAS_MERONYM tail
Barbary ape HAS_MERONYM tail negative
hand HAS_MERONYM finger
finger HAS_HOLONYM hand
car HAS_MERONYM door
door HAS_HOLONYM car reversed
computer HAS_MERONYM disk drive reversed
disk drive HAS_HOLONYM computer
Dla każdego związku podaje się następujące informacje:
Synonim jest podstawą do organizacji bazy danych za pomoca synsetów. Zasadniczo wszystkie semantycznie równoważne słowa powinny należeć do tych samych synsetów (gdzie mogą być odróżniane przez etykiety).
Jeśli X jest "semantycznie podobny" do Y, to Y jest "semantycznie podobny" do X, Podczas gdy oczywiście hiponymy powinny być asymetryczne.
taxi HAS_HYPERONYM car HAS_HYPERONYM motor vehicle HAS_HYPERONYM vehicle HAS_HYPERONYM instrument HAS_HYPERONYM object HAS_HYPERONYM entity
(i) between (the nouns standing for) a whole and their constituent parts (“part”, e.g. “hand”-“finger”);
(ii) between a portion and the whole from which it has been detached (“portion”, e.g. “ingot”-“metal”);
(iii) between a place and a wider place which includes it (“location”, e.g. “oasis”-“desert”);
(iv) between a set and their members (e.g. “fleet” -“ship”);
(v) between a thing and the substance it is made of (“made-of”, e.g. “book”-“paper”).
"EuroWordNet General Document", Piek Vossen, 2002
"Inteligentne systemy e-learningowe wykorzystujące ontologie typu word.net", Jacek Marciniak, 2015
http://plwordnet.pwr.wroc.pl/wordnet/
https://wordnet.princeton.edu/