System rozpoznawania mowy ciągłej - wyzwania w modelowaniu języka

Piotr Żelasko

Zespół Przetwarzania Sygnałów AGH, Techmo

Kraków, 17.05.2017

Wprowadzenie

System rozpoznawania mowy ciągłej

Roboczo: "dictation"

Co stanowi różnicę?

Gramatyki (Sarmata)

  • Ręcznie sporządzone reguły
  • Nie wymagają danych tekstowych
  • Ograniczona liczba rozpoznawanych wypowiedzi
  • Używane w IVR

Model językowy (Dictation)

  • Uczenie maszynowe
  • Wymaga dużego korpusu tekstowego
  • Szeroki zakres rozpoznawanych zdań
  • Używany do dyktowania oraz dialogu z maszyną

Zazwyczaj stosowane
modele języowe

  • N-gramy
  • RNNLM - sieci rekurencyjne
    (o tym więcej później)

N-gram

Normalizacja korpusu tekstowego

Problem

Dnia 15 marca 2003 r. odbyła się narada zgodnie z art. 5 § 3 k.p.c.

 

Dnia piętnastego marca dwa tysiące trzeciego roku odbyła się narada zgodnie z artykułem piątym pragrafu trzeciego kodeksu prawa cywilnego.

Istniejące badania

  • Bardzo nieliczne
  • Zazwyczaj dotyczą języka angielskiego
  • Normalizacja tekstu zagadnieniem raczej drugo-, a nawet trzeciorzędnym w NLP

Analiza problemu

  • Niejednoznaczność:
    Zajął miejsce 18.
    Otrzymał numer 18.

     
  • Po ujednoznacznieniu, rozwinięcie do pełnej formy:
    18 - osiemnaście
    r. - rok
     
  • Ustalenie właściwej formy morfologicznej:
    rok - rokiem
    drugi - drugiego

Informacje o morfosyntaktyce w zdaniu

zestaw znaczników NKJP

Eksperyment

Czy język jest na tyle regularny, że do poprawnego rozywinięcia skrótu (tj. 'odgadnięcia' znaczników morfosyntaktycznych) wystarczą informacje fleksyjne i składniowe sąsiadujących wyrazów, w oderwaniu od konkretnie użytych słów?

Metoda

Tag Embedding + LSTM

Word Embedding

Rekurencyjne sieci neuronowe (RNN)

Dwukierunkowe RNN

Zastosowana architektura

Dane

  • Korpus treningowy oraz walidacyjny:
    Polski Korpus Sejmowy
    ~0.5 mln zdań, ~10 mln słów,
    anotowany automatycznie (WCRFT)
     
  • Korpus testowy:
    Narodowy Korpus Języka Polskiego
    Podzbiór miliona słów, ręcznie anotowany

Wyniki

Poprawność (accuracy)

  • 84.5% - zbiór treningowy
  • 85.7% - zbiór walidacyjny
  • 74.2% - zbiór testowy

Wnioski

  • W znacznej części przypadków prawidłowo rozpoznana forma fleksyjna, mimo braku wiedzy o odmienianym słowie!
  • Błędy dotyczą głównie:
    • wyjątków (np. "procent"),
    • formy męskiej/żeńskiej - bez wiedzy o tym jakie to słowo, dominuje częstsza forma w języku
    • liczby mnogiej i pojedynczej
      (np. "2.7 l" -> 2.7 litra czy 2.7 litrów?)

Dziękuję za uwagę

i proszę o pytania.

Systemy rozpoznawania mowy ciągłej

By Piotr Żelasko

Systemy rozpoznawania mowy ciągłej

  • 608