Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

Piotr Żelasko

Zespół Przetwarzania Sygnałów
 AGH

12 maja 2017, Kraków

Tezy pracy

- Zastosowanie reguł wiązania stanów HMM opartych o wiedzę językoznawczą w treningu modelu akustycznego pozwala na poprawę skuteczności działania systemu ASR;

 

- Dobór alfabetu fonetycznego jest istotnym czynnikiem wpływającym na jakość modelu akustycznego;

 

- Możliwe jest znalezienie alfabetu fonetycznego optymalizującego skuteczność działania systemu rozpoznawania mowy poprzez zastosowanie metod uczenia maszynowego.

Lingwistycznie umotywowane reguły wiązania stanów w modelu akustycznym HMM

Problem

  • Powiedzmy, że alfabet fonetyczny zawiera 37 symboli 
  • Kontekst modelują tzw. "trifony", np.
    o+t-k, czyli "o" w wyrazie o transkrypcji "kot"
  • 37 * 37 * 37 = 50653 kombinacji
  • a to jest mały alfabet...

Rozwiązanie - wiązanie stanów

Jak dobrać reguły?

Zastosujmy kategorie znane z lingwistyki:

1) Zwarto-wybuchowe (/p/, /b/, /t/, /d/, /k/, /g/)

2) Nosowe (/m/, /n/, /ni/, /N/)

3) Dźwięczne (/i/, /y/, /e/, /a/, /o/, /u/, /l /)

4) Dźwięczne nosowe (/e_/, /a_/)

5) Glajdy (/j/)

6) Drżące(/l/, /r/)

7) Szczelinowe (/w/, /f/, /h/, /z/, /s/, /zi/, /si/, /rz/, /sz/)

8) Zwarto-szczelinowe (/dz/, /c/, /dzi/, /ci/, /drz/, /cz/)

Kilka słów o obecnie stosowane przez nas alfabetach

Alfabet Corpora

  • "mały alfabet"
  • autor: prof. S. Grocholewski
  • 37 symboli fonetycznych
  • wariacja/klon SAMPA dla języka polskiego?
  • użyty do anotacji w korpusie Corpora

Alfabet IPA

  • "duży alfabet"
  • ang. International Phonetic Alphabet
  • autorzy: International Phonetic Association
  • 86 symboli
  • część symboli niemalże
    nie występuje w języku polskim

Krótka historia OrtFona

OrtFon v1

  • transkrypcje na bazie tabelek z artykułu prof. Steffen-Batóg z 1975...
  • ... adaptowanych z IPA do alfabetu Grocholewskiego.

Przykładowa tabelka

OrtFon v2

  • Również oparty na tych samych tabelkach 
  • Transkrybuje bezpośrednio do IPA
  • Transformuje transkrypcję IPA wedle zadanych reguł do pożądanego alfabetu (może być dowolny, jeśli znane są reguły)

Motywacja

Prawdopodobnie istnieje optymalny alfabet, "gdzieś pomiędzy" alfabetami IPA i Corpora. 

... i posiadamy narzędzia, żeby go odkryć i stosować.

Skuteczność rozpoznawania  systemu ASR

Kryterium "jakości" alfabetu fonetycznego:

Accuracy, Word Error Rate, Phone Error Rate

Jak sformułować nowy alfabet?

  • Reguły (np. 'scalmy nosowe')
  • Automatyczne scalanie
  • Automatyczne rozbijanie?

Jak wybrać fonemy do scalania?

  • Metryki oparte o prawdopodobieństwo fonemu
  • Metryki oparte o macierz pomyłek
  • Metryki oparte o model kontekstowy (drzewo decyzyjne)
Fonemy Liczba trifonów % wszystkich trifonów
X 3 0.03
6 33 0.35
Z 39 0.41
... ... ...
7 170 1.78
N 177 1.85
d 189 1.98
... ... ...
e 735 7.69
o 761 7.96
u 769 8.04
a 944 9.87

Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

By Piotr Żelasko

Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

  • 592