Reconnaissance automatique

de la parole

Étude d'approfondissement RICM5

Paul Labat - 2014

Histoire

  • début 20e siècle : premiers travaux

  • 1952 : 1er système électronique

    • 10 chiffres

  • 1972 : 1ère commercialisation

    • 32 mots

  • 1985 : 1 000 mots

  • 1987 : 20 000 mots

Plusieurs algorithmes

  • Déformation temporelle dynamique
     

  • Réseaux de neurones artificiels
     
  • Modèle de Markov caché

Domaines d'utilisations

  • Avionique
     
  • Automobile
     
  • Téléphonie
     
  • Jeux vidéo
     
  • Domotique
     
  • Santé

Quelques systèmes... propriétaires

  • Smartphone :
    • Google Now
    • Siri
    • Cortana
    • ...
       
  • Ordinateur :
    • Dragon NaturalySpeaking
    • SpeechMagic
    • ...

CMU-sphinx

  • Open Source
     
  • Fonctionnement local ou sur serveur
     
  • Multi-plateforme : ordinateur & smartphone
     
  • Plusieurs langages : C, python, java, mobile
     
  • 6 APIs
             .txt
A ces trois sortes de jours...
       .dic
de dd ee
sortes ss oo rr tt
jours jj ou rr
trois tt rr ww aa
     Modèle de langage
-4.3860 absent -0.5734
-4.7754 absente -0.4301
-5.5876 absenté -0.2019
-5.3404 absentéisme -0.2283
-5.7643 absentéistes -0.1490
  .phone
aa
ai
an
au
bb
...
                 .wav

Modèle acoustique

sphinxtrain

+
Modèle de Markov caché

Source audio

Modèle acoustique

Modèle de

langage

Dictionnaire

PocketSphinx
Sphinx 3/4

Texte reconnu

La reconnaissance

Conclusion

Démonstration

Reconnaissance-vocale

By Paul Labat

Reconnaissance-vocale

  • 850