Parafrazowanie tekstu

przegląd narzędzi i technologii w ramach NLP

Mgr inż. Tomasz Pędzimąż

Agenda

  • Wprowadzenie.
  • Paradygmaty w NLP.
  • Narzędzia i technologie.
  • Zastosowania.
  • Przegląd podejść do parafrazowania.
  • Literatura.

Wprowadzenie

Parafraza – swobodna przeróbka tekstu lub tłumaczenia, która rozwija lub modyfikuje treść oryginału, zachowując jednak jego zasadniczy sens. Parafraza jest czytelna tylko wtedy, gdy odwołuje się do dzieła powszechnie znanego.

Przekaz pierwotny:

„Dziennikarze to goniący za tanią sensacją intryganci”.

Parafraza:

„Dziennikarze manipulują informacjami, aby być na pierwszych stronach gazet”.

Wprowadzenie

Przetwarzanie języka naturalnego (ang. natural language processing). Proces analizy komputerowej danych dostarczonych w formacie zrozumiałym dla człowieka oraz jego konwersja na inną użyteczną formę reprezentacji.

 

 

Wprowadzenie

Podstawowy problem, wieloznaczność, stanowi również problem dla człowieka.

  • Dzwon zabił nad ranem.
  • Sprzedał całą firmę wraz z podwykonawcami.
  • Proszek „Czystuś” jest o 20% skuteczniejszy niż zwykły proszek.
  • Liberał jest to osoba zwalczająca antyliberalizm.

  • Kryzys spowodował chaos gospodarczy.

 

Wprowadzenie

  1. Lingwistyka komputerowa (Computational Linguistics)
    1. Użycie technik obliczeniowych do badań zjawisk językowych.
  2. Kognitywistyka (Cognitive science)
    • dziedzina nauki zajmująca się obserwacją i analizą działania zmysłów, mózgu i umysłu, w szczególności ich modelowaniem.
  3. Informatyka (Computer science)
    • Badanie teoretycznych podstaw obliczeń i ich praktycznych zastosowań.
  4. Przetwarzanie danych (Information science)
    • Analiza, klasyfikacja, ekstrakcja, synteza informacji

Paradygmaty w NLP

  1. Obliczenia symboliczne
    • Z reguły oparte o zbiór reguł, na ręcznie przygotowanych przez lingwistów danych.
    • Wymaga dużego nakładu pracy na opracowanie formatu reprezentacji wiedzy i zebranie odpowiedniej liczby danych.
    • Przykład: PANTERA (analizator morfologiczny oparty o analizę regułową)
  2. Podejście z wykorzystaniem statystyki
    • Oparte o modele statystyczne, trenowane na przygotowanych korpusach (najczęściej anotowanych)
    • Wymaga przygotowania odpowiednio dużego i istotnego dla danej dziedziny korpusu.
    • Przykład: Concraft-pl (analizator morfologiczny oparty o Constrained Conditional Random Fields)

Podstawowe obserwacje

  1. Język jest wieloznaczny.
    1. Żeby zrozumieć tekst, trzeba ją usunąć.
  2. Wieloznaczność może wystąpić na poziomie:
    • morfologicznym (miał, mam, koło, byli)
    • semantycznym (pilot, mysz, rakieta),
    • pragmatycznym

Typowy workflow

  1. Analiza leksykalna (tokenizacja)
    • Jan Nowak-Jeziorański

    • Most św. Rocha

    • Zielona Góra

  2. Stoplista (problemy z precyzyjnym jej określeniem)
  3. Morfologia, Lematyzacja:
    • Słowniki
    • Stemming
  4. Parsowanie, gramatyki,

Drzewa parsingu (przykład)

Narzędzia i technologie

  1. Korpusy,
  2. słowniki,
  3. analizatory morfologiczne,
  4. taggery,
  5. parsery, analiza w oparciu o gramatyki.

 

Dla języka polskiego istnieje bogaty zbiór narzędzi:

http://clip.ipipan.waw.pl/LRT

Narzędzia i technologie

Wolne zasoby:

  • GATE (Sheffield University)
  • RapidMiner
  • OpenNLP
  • OpenCalais
  • LingPipe
  • nltk

Zastosowania

  • Przewidywanie kolejnego słowa,
  • poprawa pisowni,
  • kategoryzacja tekstu,
  • ekstrakcja terminologii (ditlenek węgla),
  • rozpoznawanie mowy,
  • Named Entity Recognition (nazwy własne, kody, liczby)
  • streszczanie, podsumowywanie,
  • ekstrakcja informacji.

Parafrazowanie

Koncepcyjnie, parafrazowanie jest pokrewne tłumaczeniu maszynowemu. Proponowane podejście zakłada oparcie się o wybrany wordnet jako źródło tłumaczeń. A następnie wykorzystanie jednego z dwóch omawianych podejść:

 

  1. Oparcie się o predefiniowane reguły konwersji z wykorzystaniem drzew rozbioru składniowego zmapowanego na encje wordnetu.
  2. Wytrenowanie modelu statystycznego na w oparciu o zbiór parafrazowanych tekstów.

 

Parafrazowanie -literatura

Wykrywanie parafraz

Dziękuję za uwagę!

Przegląd komputerowych technik przetwarzania tekstu pod kątem parafrazowania

By pedzimaz

Przegląd komputerowych technik przetwarzania tekstu pod kątem parafrazowania

  • 1,037