Parafrazowanie tekstu
przegląd narzędzi i technologii w ramach NLP
Mgr inż. Tomasz Pędzimąż
Agenda
- Wprowadzenie.
- Paradygmaty w NLP.
- Narzędzia i technologie.
- Zastosowania.
- Przegląd podejść do parafrazowania.
- Literatura.
Wprowadzenie
Parafraza – swobodna przeróbka tekstu lub tłumaczenia, która rozwija lub modyfikuje treść oryginału, zachowując jednak jego zasadniczy sens. Parafraza jest czytelna tylko wtedy, gdy odwołuje się do dzieła powszechnie znanego.
Przekaz pierwotny:
„Dziennikarze to goniący za tanią sensacją intryganci”.
Parafraza:
„Dziennikarze manipulują informacjami, aby być na pierwszych stronach gazet”.
Wprowadzenie
Przetwarzanie języka naturalnego (ang. natural language processing). Proces analizy komputerowej danych dostarczonych w formacie zrozumiałym dla człowieka oraz jego konwersja na inną użyteczną formę reprezentacji.
Wprowadzenie
Podstawowy problem, wieloznaczność, stanowi również problem dla człowieka.
- Dzwon zabił nad ranem.
- Sprzedał całą firmę wraz z podwykonawcami.
- Proszek „Czystuś” jest o 20% skuteczniejszy niż zwykły proszek.
-
Liberał jest to osoba zwalczająca antyliberalizm.
- Kryzys spowodował chaos gospodarczy.
Wprowadzenie
-
Lingwistyka komputerowa (Computational Linguistics)
- Użycie technik obliczeniowych do badań zjawisk językowych.
-
Kognitywistyka (Cognitive science)
- dziedzina nauki zajmująca się obserwacją i analizą działania zmysłów, mózgu i umysłu, w szczególności ich modelowaniem.
-
Informatyka (Computer science)
- Badanie teoretycznych podstaw obliczeń i ich praktycznych zastosowań.
-
Przetwarzanie danych (Information science)
- Analiza, klasyfikacja, ekstrakcja, synteza informacji
Paradygmaty w NLP
- Obliczenia symboliczne
- Z reguły oparte o zbiór reguł, na ręcznie przygotowanych przez lingwistów danych.
- Wymaga dużego nakładu pracy na opracowanie formatu reprezentacji wiedzy i zebranie odpowiedniej liczby danych.
- Przykład: PANTERA (analizator morfologiczny oparty o analizę regułową)
- Podejście z wykorzystaniem statystyki
- Oparte o modele statystyczne, trenowane na przygotowanych korpusach (najczęściej anotowanych)
- Wymaga przygotowania odpowiednio dużego i istotnego dla danej dziedziny korpusu.
- Przykład: Concraft-pl (analizator morfologiczny oparty o Constrained Conditional Random Fields)
Podstawowe obserwacje
- Język jest wieloznaczny.
- Żeby zrozumieć tekst, trzeba ją usunąć.
- Wieloznaczność może wystąpić na poziomie:
- morfologicznym (miał, mam, koło, byli)
- semantycznym (pilot, mysz, rakieta),
- pragmatycznym
Typowy workflow
- Analiza leksykalna (tokenizacja)
-
Jan Nowak-Jeziorański
-
Most św. Rocha
-
Zielona Góra
-
- Stoplista (problemy z precyzyjnym jej określeniem)
- Morfologia, Lematyzacja:
- Słowniki
- Stemming
- Parsowanie, gramatyki,
Drzewa parsingu (przykład)
Narzędzia i technologie
- Korpusy,
- słowniki,
- analizatory morfologiczne,
- taggery,
- parsery, analiza w oparciu o gramatyki.
Dla języka polskiego istnieje bogaty zbiór narzędzi:
Narzędzia i technologie
Wolne zasoby:
- GATE (Sheffield University)
- RapidMiner
- OpenNLP
- OpenCalais
- LingPipe
- nltk
Zastosowania
- Przewidywanie kolejnego słowa,
- poprawa pisowni,
- kategoryzacja tekstu,
- ekstrakcja terminologii (ditlenek węgla),
- rozpoznawanie mowy,
- Named Entity Recognition (nazwy własne, kody, liczby)
- streszczanie, podsumowywanie,
- ekstrakcja informacji.
Parafrazowanie
Koncepcyjnie, parafrazowanie jest pokrewne tłumaczeniu maszynowemu. Proponowane podejście zakłada oparcie się o wybrany wordnet jako źródło tłumaczeń. A następnie wykorzystanie jednego z dwóch omawianych podejść:
- Oparcie się o predefiniowane reguły konwersji z wykorzystaniem drzew rozbioru składniowego zmapowanego na encje wordnetu.
- Wytrenowanie modelu statystycznego na w oparciu o zbiór parafrazowanych tekstów.
Parafrazowanie -literatura
Wykrywanie parafraz
Dziękuję za uwagę!
Przegląd komputerowych technik przetwarzania tekstu pod kątem parafrazowania
By pedzimaz
Przegląd komputerowych technik przetwarzania tekstu pod kątem parafrazowania
- 1,037