Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

Piotr Żelasko

Zespół Przetwarzania Sygnałów
AGH

12 maja 2017, Kraków

Tezy pracy

- Zastosowanie reguł wiązania stanów HMM opartych o wiedzę językoznawczą w treningu modelu akustycznego pozwala na poprawę skuteczności działania systemu ASR;

- Dobór alfabetu fonetycznego jest istotnym czynnikiem wpływającym na jakość modelu akustycznego;

- Możliwe jest znalezienie alfabetu fonetycznego optymalizującego skuteczność działania systemu rozpoznawania mowy poprzez zastosowanie metod uczenia maszynowego.

Lingwistycznie umotywowane reguły wiązania stanów w modelu akustycznym HMM

Problem

Powiedzmy, że alfabet fonetyczny zawiera 37 symboli
Kontekst modelują tzw. "trifony", np.
o+t-k, czyli "o" w wyrazie o transkrypcji "kot"
37 * 37 * 37 = 50653 kombinacji
a to jest mały alfabet...

Rozwiązanie - wiązanie stanów

Jak dobrać reguły?

Zastosujmy kategorie znane z lingwistyki:

1) Zwarto-wybuchowe (/p/, /b/, /t/, /d/, /k/, /g/)

2) Nosowe (/m/, /n/, /ni/, /N/)

3) Dźwięczne (/i/, /y/, /e/, /a/, /o/, /u/, /l /)

4) Dźwięczne nosowe (/e_/, /a_/)

5) Glajdy (/j/)

6) Drżące(/l/, /r/)

7) Szczelinowe (/w/, /f/, /h/, /z/, /s/, /zi/, /si/, /rz/, /sz/)

8) Zwarto-szczelinowe (/dz/, /c/, /dzi/, /ci/, /drz/, /cz/)

Kilka słów o obecnie stosowane przez nas alfabetach

Alfabet Corpora

"mały alfabet"
autor: prof. S. Grocholewski
37 symboli fonetycznych
wariacja/klon SAMPA dla języka polskiego?
użyty do anotacji w korpusie Corpora

Alfabet IPA

"duży alfabet"
ang. International Phonetic Alphabet
autorzy: International Phonetic Association
86 symboli
część symboli niemalże
nie występuje w języku polskim

Krótka historia OrtFona

OrtFon v1

transkrypcje na bazie tabelek z artykułu prof. Steffen-Batóg z 1975...
... adaptowanych z IPA do alfabetu Grocholewskiego.

Przykładowa tabelka

OrtFon v2

Również oparty na tych samych tabelkach
Transkrybuje bezpośrednio do IPA
Transformuje transkrypcję IPA wedle zadanych reguł do pożądanego alfabetu (może być dowolny, jeśli znane są reguły)

Motywacja

Prawdopodobnie istnieje optymalny alfabet, "gdzieś pomiędzy" alfabetami IPA i Corpora.

... i posiadamy narzędzia, żeby go odkryć i stosować.

Skuteczność rozpoznawania systemu ASR

Kryterium "jakości" alfabetu fonetycznego:

Accuracy, Word Error Rate, Phone Error Rate

Jak sformułować nowy alfabet?

Reguły (np. 'scalmy nosowe')
Automatyczne scalanie
Automatyczne rozbijanie?

Jak wybrać fonemy do scalania?

Metryki oparte o prawdopodobieństwo fonemu
Metryki oparte o macierz pomyłek
Metryki oparte o model kontekstowy (drzewo decyzyjne)

Fonemy	Liczba trifonów	% wszystkich trifonów
X	3	0.03
6	33	0.35
Z	39	0.41
...	...	...
7	170	1.78
N	177	1.85
d	189	1.98
...	...	...
e	735	7.69
o	761	7.96
u	769	8.04
a	944	9.87

Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

By Piotr Żelasko

Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

Piotr Żelasko

Research scientist at CLSP, John's Hopkins University. PhD @ AGH-UST in Cracow. My interests are automatic speech recognition, natural language processing, C++ and Python, machine learning and deep learning, and jazz music.

Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

Piotr Żelasko

Tezy pracy

Lingwistycznie umotywowane reguły wiązania stanów w modelu akustycznym HMM

Problem

Rozwiązanie - wiązanie stanów

Jak dobrać reguły?

Kilka słów o obecnie stosowane przez nas alfabetach

Alfabet Corpora

Alfabet IPA

Krótka historia OrtFona

OrtFon v1

Przykładowa tabelka

OrtFon v2

Motywacja

Prawdopodobnie istnieje optymalny alfabet, "gdzieś pomiędzy" alfabetami IPA i Corpora.

Skuteczność rozpoznawania systemu ASR

Kryterium "jakości" alfabetu fonetycznego:

Jak sformułować nowy alfabet?

Jak wybrać fonemy do scalania?

Metody poprawienia efektywności modelu akustycznego w rozpoznawaniu mowy dla języka polskiego

More from Piotr Żelasko