Comment j'ai aidé ma fille à lire avec le machine learning

📖 👨‍👧

Vincent Ogloblinsky - @vogloblinsky

Vincent Ogloblinsky

Compodoc maintainer

@vogloblinsky

Google Developer Expert on Web Technologies

Architecte logiciel / Référent Open-Source

Orange Innovation / Data & IA / ARoD

Disclaimer

La suite n'est qu'une vision "technique" du machine learning du point de vue d'un développeur.

Je n'ai pas une formation de data-scientist. 😉

Certains sujets (optimisation du modèle par ex) ne sont pas encore traités.

Agenda

1. Genèse de l'idée

2. L'apprentissage de la lecture

3. Le machine learning

4. Le speech to text

5. La construction du modèle

6. Résultats et perspectives

Genèse de l'idée

Comme tout papa geek qui fait la lecture du soir :

@vogloblinsky

- guider sa fille en décortiquant les syllabes de mots avec le doigt

- guider et corriger le déchiffrage oral

- travailler dans un contexte professionnel "traitant de la voix" (Orange - Data IA)

- imaginer qu'une application basée sur un moteur "speech to text" adapté + une bonne dose d'interactivité

- faire une veille "sectorielle" et se rendre compte que ça n'existe pas

Bingo ! Nouveau défi technique en poche pour le papa geek 😀

Genèse de l'idée

Aide à la lecture

Application web

🗣️

Voix d'enfant

Machine learning

Speech to text

Definition of "ready"

Imposons-nous quelques contraintes techniques en +

@vogloblinsky

100% technologies "web"

- JavaScript

- WebGL et/ou WebAssembly

Offline & privacy by design

- aucun appel API possible

- aucune identification de l'enfant

L'apprentis-sage

de la lecture

L'apprentissage de la lecture

Processus en 7 étapes

https://www.bloghoptoys.fr/pas-a-pas-8-etapes-pour-apprendre-a-lire

1 - La conscience des sonorités à l’oral

2 - Le prise de conscience du lien entre l’oral et l’écrit

3 - La découverte de l’alphabet composé de 26 lettres

4 - Comprendre l’association « sons et lettres »

5 - Comprendre la fusion syllabique

6 - Reconnaître les mots

7 - Comprendre les textes

La fusion syllabique

@vogloblinsky

"château"

ch ça fait "chhh"

Habileté mentale de synthèse : réunir son-parole d'une consonne et son-parole d'une voyelle

/p/ et /a/ → pa

L'enfant a besoin de savoir que la langue est segmentée en mots et aussi en segments sonores plus petits : les phonèmes et les syllabes (fusion de phonèmes)

a ça fait "aa"

t ça fait "ttt"

eau ça fait "ooo"

Richesse du "français"

@vogloblinsky

26 lettres dans l'alphabet

36 phonèmes

voyelles : [a] (table, patte), [é] (éléphant, parler), [o] (bonnet, chaud), ...

semi-voyelles : [J] (fille, rail), ...

consonnes : [b] (billets, abbé), [g] (gâteau, aggraver), ...

190 graphèmes

[o] : o, au, eau

[k] : c, qu (coque)

Le machine learning

L'IA chez Orange

@vogloblinsky

L'IA chez Orange

@vogloblinsky

Le machine learning

@vogloblinsky

Sous-catégorie de l' "Intelligence Artificielle"

Algorithmes découvrant des "patterns" (des motifs récurrents) dans des ensembles de données

4 étapes :

- sélectionner et préparer les données

- sélectionner l'algorithme à appliquer

- entraînement de l'algorithme (= modèle)

- utilisation (et amélioration du modèle)

Le machine learning

@vogloblinsky

3 types principaux de machine learning

- apprentissage supervisé : données étiquetées - task driven (onéreux)

- apprentissage non-supervisé : données non étiquetées - data driven (recherche autonome de patterns)

- apprentissage par renforcement : l'algorithme apprendre de ses erreurs pour atteindre un objectif

Le "speech to text"

Le "speech to text"

Aussi appelé "Automatic Speech Recognition (ASR)"

https://towardsdatascience.com/audio-deep-learning-made-simple-automatic-speech-recognition-asr-how-it-works-716cfce4c706

Le "speech to text"

https://towardsdatascience.com/audio-deep-learning-made-simple-automatic-speech-recognition-asr-how-it-works-716cfce4c706

Le "speech to text" chez Orange

Service 1

Service 2

Service 3

Service 4

Service 5

Service 6

"Speech to text" et voix d'enfants

@vogloblinsky

Assistants vocaux actuels "entrainés" avec des datasets "adultes"

Voix d'enfants plus riches "vocalement" parlant : aigu, canal vocal plus fin, cordes vocales plus petites; bref ils "grandissent"

Spectralement plus riche

Datasets de voix faibles

Construction du modèle

Construction du "modèle"

2 approches possibles : "de zéro" ou par "transfer learning"

- de zéro :

Avantage :

- contrôle total du modèle

Inconvénient :

- nécessite beaucoup de données

- transfer learning :

Avantage :

- bénéficie d'un apprentissage initial du modèle

Inconvénient :

- maitrise moins forte du modèle

Construction du "modèle"

2 approches possibles : "de zéro" ou par "transfer learning"

https://datascientest.com/transfer-learning

Transfer learning

https://datascientest.com/transfer-learning

Transfer learning

https://datascientest.com/transfer-learning

Sound classification

https://towardsdatascience.com/audio-deep-learning-made-simple-sound-classification-step-by-step-cebc936bbe5

Cas d'usage plus "simple" qu'un ASR

Construction du "modèle"

@vogloblinsky

🔘 Speech commands dataset (www.tensorflow.org/datasets/catalog/speech_commands)

- proposé par Google en 2017

- 65000 sons de 1s de 30 mots courts prononcés par des milliers de personnes

🔘 Utilisation de Tensorflow comme framework de Machine Learning

🔘 "Entrainement" en local (Python) puis "export"

Tensorflow

@vogloblinsky

Développé par Google Brain

Sorti en 2017 en v1.0.0 - (current 2.8.0)

Tensorflow

@vogloblinsky

Tensorflow.js

@vogloblinsky

Utilise le GPU et les APIs WebGL "under the hood"

Collecte de données

@vogloblinsky

Interface web de collecte de données

- jeu simple de syllabes

- réception de fichiers wav

- aucune information collectée sur l'enfant (âge, sexe)

Préparation des données

@vogloblinsky

Interface web de nettoyage des données

- un son par syllabe par enfant

- raccourcissement à 1s

- nettoyage des sons parasites (euh, ...)

+ augmentation (variation du pitch)

Entrainement du modèle

@vogloblinsky

1. Séparation des données d'entrainement

80% pour l'entrainement

10% pour la validation interne de Tensorflow

10% pour les tests

3. Chargement du modèle de base

2. Inspection de quelques spectrogrammes

Entrainement du modèle

@vogloblinsky

4. Freezing de toutes les couches du modèles sauf la dernière

for layer in model.layers[:-1]:
  layer.trainable = False

model.compile(optimizer="sgd", loss="sparse_categorical_crossentropy", metrics=["acc"])

Entrainement du modèle

@vogloblinsky

Print des informations des couches

Entrainement du modèle

@vogloblinsky

5. Entrainement : ~ 5min

Entrainement du modèle

6. Contrôle de la fonction de perte

Ecart entre les prédictions réalisées par le réseau de neurones et les valeurs réelles des observations utilisées pendant l’apprentissage

Itération

Loss

Entrainement du modèle

7. Contrôle de la précision

Elle mesure l’efficacité d’un modèle à prédire correctement à la fois les individus positifs et négatifs.

Itération

Accuracy

Entrainement du modèle

@vogloblinsky

8. Affichage de la matrice de confusion

Entrainement du modèle

@vogloblinsky

8. Contrôle avec des fichiers de tests complémentaires (labellisés)

Export du modèle

@vogloblinsky

# Convert the model to TensorFlow.js Layers model format.

tfjs_model_dir = "./thot-model-tfjs-1"
tfjs.converters.save_keras_model(model, tfjs_model_dir)

# Create the metadata.json file.
metadata = {
    "words": list(commands),
    "frameSize": model.input_shape[-2],
    "generated_at": now.strftime("%Y-%m-%d-%H:%M:%S")
}
with open(os.path.join(tfjs_model_dir, "metadata.json"), "w") as f:
    json.dump(metadata, f)

4.1 Mo

1.6 Mo

Import en JavaScript du modèle

@vogloblinsky

@tensorflow-models/speech-commands : package JavaScript de pilotage du modèle

import * as tf from '@tensorflow/tfjs-core';
import * as tfl from '@tensorflow/tfjs-layers';
import * as speechCommands from '@tensorflow-models/speech-commands';

const recognizer = speechCommands.create(
    'BROWSER_FFT',
    null,
    'http://test.com/my-audio-model/model.json',
    'http://test.com/my-audio-model/metadata.json'
);

Utilisation en JavaScript du modèle

@vogloblinsky

Ecoute en continu

API getUserMedia

setInterval

~ 1s

Récupération des fréquences audio

Creation du spectrogramme

Envoi au modèle Tensorflow

Récupération des prédictions

Résultats et perspectives

Démo : syllabe

@vogloblinsky

Démo : mot syllabe par syllabe

@vogloblinsky

Démo : mot à mot

@vogloblinsky

Perspectives

@vogloblinsky

Scaling du modèle avec crowdsourcing

Couche d'adaptation côté application : correction, guidage

Détection de la dyslexie phonologique

Gamification du parcours "enfant"

Customisation du modèle à la voix de l'enfant (on-device)

Bilan

@vogloblinsky

Super aventure technique

Domaine ML passionnant et qui s'enrichit chaque jour (OpenAI, etc)

Approche test, fail & learn

Ressource

https://teachablemachine.withgoogle.com

Merci pour votre attention !

Des questions ?

Slides : bit.ly/3uBPDYR

@vogloblinsky

Crédit photos - Unsplash.com

Un feedback ? 👉🏻 C'est par ici

Comment j'ai aidé ma fille à lire avec le machine learning

By Vincent Ogloblinsky

Comment j'ai aidé ma fille à lire avec le machine learning

5,252

Comment j'ai aidé ma fille à lire avec le machine learning

📖 👨‍👧

Disclaimer

La suite n'est qu'une vision "technique" du machine learning du point de vue d'un développeur.

Je n'ai pas une formation de data-scientist. 😉

Certains sujets (optimisation du modèle par ex) ne sont pas encore traités.

Agenda

1.

Genèse de l'idée

2.

L'apprentissage de la lecture

3.

Le machine learning

4.

Le speech to text

5.

La construction du modèle

6.

Résultats et perspectives

Genèse de l'idée

Genèse de l'idée

Comme tout papa geek qui fait la lecture du soir :

Genèse de l'idée

Definition of "ready"

Imposons-nous quelques contraintes techniques en +

L'apprentis-sage

de la lecture

L'apprentissage de la lecture

Processus en 7 étapes

La fusion syllabique

Richesse du "français"

Le machine learning

L'IA chez Orange

L'IA chez Orange

Le machine learning

Le machine learning

Le "speech to text"

Le "speech to text"

Le "speech to text"

Le "speech to text"

Le "speech to text"

Le "speech to text" chez Orange

Le "speech to text" chez Orange

"Speech to text" et voix d'enfants

Construction du modèle

Construction du "modèle"

Construction du "modèle"

Transfer learning

Transfer learning

Sound classification

Construction du "modèle"

Tensorflow

Tensorflow

Tensorflow.js

Collecte de données

Préparation des données

Entrainement du modèle

Entrainement du modèle

Entrainement du modèle

Entrainement du modèle

Entrainement du modèle

Entrainement du modèle

Entrainement du modèle

Entrainement du modèle

Export du modèle

Import en JavaScript du modèle

Utilisation en JavaScript du modèle

Résultats et perspectives

Démo : syllabe

Démo : mot syllabe par syllabe

Démo : mot à mot

Perspectives

Bilan

Ressource

Merci pour votre attention !

Un feedback ? 👉🏻 C'est par ici

Comment j'ai aidé ma fille à lire avec le machine learning

More from Vincent Ogloblinsky