Reconnaissance automatique
de la parole
Étude d'approfondissement RICM5
Paul Labat - 2014
Histoire
-
début 20e siècle : premiers travaux
-
1952 : 1er système électronique
10 chiffres
-
1972 : 1ère commercialisation
32 mots
1985 : 1 000 mots
1987 : 20 000 mots
Plusieurs algorithmes
-
Déformation temporelle dynamique
- Réseaux de neurones artificiels
- Modèle de Markov caché
Domaines d'utilisations
- Avionique
- Automobile
- Téléphonie
- Jeux vidéo
- Domotique
- Santé
Quelques systèmes... propriétaires
- Smartphone :
- Google Now
- Siri
- Cortana
- ...
- Ordinateur :
- Dragon NaturalySpeaking
- SpeechMagic
- ...
CMU-sphinx
- Open Source
- Fonctionnement local ou sur serveur
- Multi-plateforme : ordinateur & smartphone
- Plusieurs langages : C, python, java, mobile
- 6 APIs
.txt
A ces trois sortes de jours...
.dic
de dd ee
sortes ss oo rr tt
jours jj ou rr
trois tt rr ww aa
Modèle de langage
-4.3860 absent -0.5734
-4.7754 absente -0.4301
-5.5876 absenté -0.2019
-5.3404 absentéisme -0.2283
-5.7643 absentéistes -0.1490
.phone
aa
ai
an
au
bb
...
.wav
Modèle acoustique
sphinxtrain
+
Modèle de Markov caché
Source audio
Modèle acoustique
Modèle de
langage
Dictionnaire
PocketSphinx
Sphinx 3/4
Texte reconnu
La reconnaissance
Conclusion
Démonstration
Reconnaissance-vocale
By Paul Labat
Reconnaissance-vocale
- 850