Reconnaissance automatique

de la parole

Étude d'approfondissement RICM5

Paul Labat - 2014

Histoire

début 20e siècle : premiers travaux
1952 : 1er système électronique
- 10 chiffres
1972 : 1ère commercialisation
- 32 mots
1985 : 1 000 mots
1987 : 20 000 mots

Plusieurs algorithmes

Déformation temporelle dynamique
Réseaux de neurones artificiels
Modèle de Markov caché

Domaines d'utilisations

Avionique
Automobile
Téléphonie
Jeux vidéo
Domotique
Santé

Quelques systèmes... propriétaires

Smartphone :
- Google Now
- Siri
- Cortana
- ...
Ordinateur :
- Dragon NaturalySpeaking
- SpeechMagic
- ...

CMU-sphinx

Open Source
Fonctionnement local ou sur serveur
Multi-plateforme : ordinateur & smartphone
Plusieurs langages : C, python, java, mobile
6 APIs

             .txt
A ces trois sortes de jours...

       .dic
de dd ee
sortes ss oo rr tt
jours jj ou rr
trois tt rr ww aa

     Modèle de langage
-4.3860 absent -0.5734
-4.7754 absente -0.4301
-5.5876 absenté -0.2019
-5.3404 absentéisme -0.2283
-5.7643 absentéistes -0.1490

  .phone
aa
ai
an
au
bb
...

                 .wav

Modèle acoustique

sphinxtrain

+
Modèle de Markov caché

Source audio

Modèle acoustique

Modèle de

langage

Dictionnaire

PocketSphinx
Sphinx 3/4

Texte reconnu

La reconnaissance

Conclusion

Démonstration

Reconnaissance-vocale

By Paul Labat

Reconnaissance-vocale

1,086

Reconnaissance automatique

de la parole

Étude d'approfondissement RICM5

Histoire

Plusieurs algorithmes

Domaines d'utilisations

Quelques systèmes... propriétaires

CMU-sphinx

La reconnaissance

Conclusion

Démonstration

Reconnaissance-vocale

Reconnaissance-vocale

Paul Labat

More from Paul Labat