Piotr Żelasko
Research scientist at CLSP, John's Hopkins University. PhD @ AGH-UST in Cracow. My interests are automatic speech recognition, natural language processing, C++ and Python, machine learning and deep learning, and jazz music.
Zespół Przetwarzania Sygnałów
AGH
12 maja 2017, Kraków
- Zastosowanie reguł wiązania stanów HMM opartych o wiedzę językoznawczą w treningu modelu akustycznego pozwala na poprawę skuteczności działania systemu ASR;
- Dobór alfabetu fonetycznego jest istotnym czynnikiem wpływającym na jakość modelu akustycznego;
- Możliwe jest znalezienie alfabetu fonetycznego optymalizującego skuteczność działania systemu rozpoznawania mowy poprzez zastosowanie metod uczenia maszynowego.
Zastosujmy kategorie znane z lingwistyki:
1) Zwarto-wybuchowe (/p/, /b/, /t/, /d/, /k/, /g/)
2) Nosowe (/m/, /n/, /ni/, /N/)
3) Dźwięczne (/i/, /y/, /e/, /a/, /o/, /u/, /l /)
4) Dźwięczne nosowe (/e_/, /a_/)
5) Glajdy (/j/)
6) Drżące(/l/, /r/)
7) Szczelinowe (/w/, /f/, /h/, /z/, /s/, /zi/, /si/, /rz/, /sz/)
8) Zwarto-szczelinowe (/dz/, /c/, /dzi/, /ci/, /drz/, /cz/)
... i posiadamy narzędzia, żeby go odkryć i stosować.
Accuracy, Word Error Rate, Phone Error Rate
Fonemy | Liczba trifonów | % wszystkich trifonów |
---|---|---|
X | 3 | 0.03 |
6 | 33 | 0.35 |
Z | 39 | 0.41 |
... | ... | ... |
7 | 170 | 1.78 |
N | 177 | 1.85 |
d | 189 | 1.98 |
... | ... | ... |
e | 735 | 7.69 |
o | 761 | 7.96 |
u | 769 | 8.04 |
a | 944 | 9.87 |
By Piotr Żelasko
Research scientist at CLSP, John's Hopkins University. PhD @ AGH-UST in Cracow. My interests are automatic speech recognition, natural language processing, C++ and Python, machine learning and deep learning, and jazz music.