Loss landscape and symmetries in Neural Networks
Paysage de la fonction de coût et symétries dans les réseaux de neurones
Candidat: Mario Geiger
Professeur: Matthieu Wyart
Laboratoire de physique des systèmes complexes
- Introduction au "deep learning"
- Les paradoxes du deep learning
- Quelques resultats
- La transition de "Jamming"
- La double descente
- Les régimes Feature & Lazy
- La stabilité aux déformations
- Réseaux de neurones équivariants
- Conclusion
introduction
paradoxes
resultats
conclusion
- Introduction au "deep learning"
- Les paradoxes du deep learning
- Quelques resultats
- La transition de "Jamming"
- La double descente
- Les régimes Feature & Lazy
- La stabilité aux déformations
- Réseaux de neurones équivariants
- Conclusion
introduction
paradoxes
resultats
conclusion
- Introduction au "deep learning"
- Les paradoxes du deep learning
- Quelques resultats
- La transition de "Jamming"
- La double descente
- Les régimes Feature & Lazy
- La stabilité aux déformations
- Réseaux de neurones équivariants
- Conclusion
introduction
paradoxes
resultats
conclusion
- Introduction au "deep learning"
- Les paradoxes du deep learning
- Quelques resultats
- La transition de "Jamming"
- La double descente
- Les régimes Feature & Lazy
- La stabilité aux déformations
- Réseaux de neurones équivariants
- Conclusion
introduction
paradoxes
resultats
conclusion
introduction
paradoxes
resultats
conclusion
Introduction
- Qu'est-ce que le "deep learning"?
- Comment ça fonctionne?
- Utilisé pour quoi?
introduction
paradoxes
resultats
conclusion
Intelligence Artificielle
Un peu de terminologie
introduction
paradoxes
resultats
conclusion
Intelligence Artificielle
Machine Learning
Un peu de terminologie
introduction
paradoxes
resultats
conclusion
Intelligence Artificielle
Machine Learning
Un peu de terminologie
introduction
paradoxes
resultats
conclusion
Intelligence Artificielle
Machine Learning
Réseaux de Neurones
Un peu de terminologie
introduction
paradoxes
resultats
conclusion
Intelligence Artificielle
Machine Learning
Réseaux de Neurones
Réseaux de Neurones Profonds
"Deep Networks"
Un peu de terminologie
introduction
paradoxes
resultats
conclusion
Comment fonctionne le ?
Avec un "modèle"
et des paramètres
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Le "dataset"
(les exemples)
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Le "dataset"
(les exemples)
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Le "dataset"
(les exemples)
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
entrée
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Avec un "modèle"
et des paramètres
entrée
sortie
Comment fonctionne le ?
Machine Learning
introduction
paradoxes
resultats
conclusion
Machine Learning
Réseaux de Neurones
Réseaux de Neurones
Profonds
"Deep Networks"
introduction
paradoxes
resultats
conclusion
Machine Learning
Réseaux de Neurones
Réseaux de Neurones
Profonds
"Deep Networks"
introduction
paradoxes
resultats
conclusion
Réseaux de Neurones
Profonds
"Deep Networks"
Le modèle est semblable à des neurones interconnectés
introduction
paradoxes
resultats
conclusion
Réseaux de Neurones
Profonds
"Deep Networks"
avec beaucoup de paramètres!!!
introduction
paradoxes
resultats
conclusion
avec beaucoup de paramètres!!!
des millions de paramètres!
Réseaux de Neurones
Profonds
"Deep Networks"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
introduction
paradoxes
resultats
conclusion
entrée
sortie
beaucoup d'exemples
Comment les paramètres sont-ils ajusté?
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
Comment les paramètres sont-ils ajusté?
via un "entrainement"
introduction
paradoxes
resultats
conclusion
entrainement terminé!
introduction
paradoxes
resultats
conclusion
entrainement terminé!
on peut maintenant utiliser nôtre modèle
introduction
paradoxes
resultats
conclusion
entrainement terminé!
on peut maintenant utiliser nôtre modèle
introduction
paradoxes
resultats
conclusion
On a vu comment les réseaux de neurones sont entraînés
À quoi ça sert les réseaux de neurones ?
Quelques exemples suprenants
introduction
paradoxes
resultats
conclusion
On a vu comment les réseaux de neurones sont entraînés
À quoi ça sert les réseaux de neurones ?
Quelques exemples suprenants
introduction
paradoxes
resultats
conclusion
Les voitures autonomes utilisent un réseau de neurones pour interpréter les images capturées par leurs caméras
introduction
paradoxes
resultats
conclusion
On peut créer des images de synthèse très réalistes avec un réseau de neurone
Ces deux images proviennent du site https://thispersondoesnotexist.com/
introduction
paradoxes
resultats
conclusion
Les réseaux de neurones sont très doués pour complèter du texte
introduction
paradoxes
resultats
conclusion
Les réseaux de neurones sont très doués pour complèter du texte
introduction
paradoxes
resultats
conclusion
Les réseaux de neurones sont très doués pour complèter du texte
Ces exemples sont généré avec Github copilot et beta.openai.com/playground
700GiB de paramètre et 1TiB de texte pour l'entrainer
introduction
paradoxes
resultats
conclusion
La forme d'une protéine prédite à l'aide d'un réseau de neurone
entrée: chaîne d'acide aminés sortie: la forme de la protéine
TDELLERLRQLFEELHERGTEIVVEVHINGERDEIRVRNISKEELKKLLERIREKIEREGSSEVEVNVHSGGQTWTFNEK
introduction
paradoxes
resultats
conclusion
- Les réseaux de neurones sont entraîné en ajustant des millions de paramètres
- Ils sont polyvalent. Ils peuvent être entraîné à manipuler des images, du texte, du son, des données scientifiques etc.
- Ils fonctionnent très bien...
Mais on ne comprends pas bien comment ils fonctionnent
introduction
paradoxes
resultats
conclusion
Paradoxes
Les trois raisons principales pour lesquelles les réseaux de neurones ne devraient pas fonctionner
- Pourquoi l'entraînement ne se bloque-t-il pas ?
- Comment peuvent-ils si bien fonctionner avec autant de paramètres ?
- "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
1. Pourquoi l'entraînement ne se bloque-t-il pas ?
On s'attendrait à avoir un équilibre
introduction
paradoxes
resultats
conclusion
1. Pourquoi l'entraînement ne se bloque-t-il pas ?
Peu de paramètres
Beaucoup de paramètres
On est bloqué dans un équilibre
On arrive à trouver des paramètres qui "fittent" toutes les données d'entrainement
Baity-Jesi et al. (2018)
introduction
paradoxes
resultats
conclusion
1. Pourquoi l'entraînement ne se bloque-t-il pas ?
Peu de paramètres
Beaucoup de paramètres
On est bloqué dans un équilibre
On arrive à trouver des paramètres qui "fittent" toutes les données d'entrainement
De quelle nature est la transition entre ces deux régimes ?
Baity-Jesi et al. (2018)
introduction
paradoxes
resultats
conclusion
2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?
Pour mesurer la performance d'un réseau de neurones on utilise
"l'erreur de généralisation"
introduction
paradoxes
resultats
conclusion
2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?
introduction
paradoxes
resultats
conclusion
2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?
Neyshabur et al. (2017, 2018); Bansal et al. (2018); Advani et al. (2020)
introduction
paradoxes
resultats
conclusion
2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?
Pourquoi l'erreur décroît avec le nombre de paramètres ?
Neyshabur et al. (2017, 2018); Bansal et al. (2018); Advani et al. (2020)
Comment arrivent-ils à apprendre avec des données en grande dimension ?
3. "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
Comment arrivent-ils à apprendre avec des données en grande dimension ?
3. "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
Comment arrivent-ils à apprendre avec des données en grande dimension ?
3. "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
Comment arrivent-ils à apprendre avec des données en grande dimension ?
3. "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
139
140
140
140
140
142
139
140
140
140
140
142
139
140
140
140
140
142
139
140
140
140
140
142
Comment arrivent-ils à apprendre avec des données en grande dimension ?
3. "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
139
140
140
140
140
142
139
140
140
140
140
142
139
140
140
140
140
142
139
140
140
140
140
142
Une image est représentée par des millions de nombres
3. "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
177 238 168 140 181 156 253 128 205 159 155 196 234 150 126 190 182 ...
116 217 232 131 222 130 233 149 156 140 188 177 111 161 178 128 148 ...
Bien que ces deux images sont très similaires, leur représentation numérique diffère beaucoup
3. "La malédiction de la dimension"
introduction
paradoxes
resultats
conclusion
177 238 168 140 181 156 253 128 205 159 155 196 234 150 126 190 182 ...
116 217 232 131 222 130 233 149 156 140 188 177 111 161 178 128 148 ...
Bien que ces deux images sont très similaires, leur représentation numérique diffère beaucoup
similaire à l'oeil
à l'air complètement différent
introduction
paradoxes
resultats
conclusion
3. "La malédiction de la dimension"
proposition Les réseaux de neurones apprennent à être stable par rapport aux déformation des images
Bruna and Mallat (2013); Mallat (2016)
Peut-t-on le vérifier expérimentalement ?
introduction
paradoxes
resultats
conclusion
Les 3 questions auxquelles j'ai répondu dans ma thèse
De quelle nature est la transition entre peu et beaucoup de paramètres ?
introduction
paradoxes
resultats
conclusion
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Les 3 questions auxquelles j'ai répondu dans ma thèse
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Les 3 questions auxquelles j'ai répondu dans ma thèse
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
De quelle nature est la transition entre peu et beaucoup de paramètres ?
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
paramètres
(degrés de liberté)
exemples à "fitter"
(contraintes à satisfaire)
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
paramètres
(degrés de liberté)
exemples à "fitter"
(contraintes à satisfaire)
Beaucoup de problèmes en physique sont de cette nature
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
paramètres
(degrés de liberté)
exemples à "fitter"
(contraintes à satisfaire)
Beaucoup de problèmes en physique sont de cette nature
Pour tous ces problèmes, les physicien-nes ont découvert une transition universelle appelée "Jamming"
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Jamming
changement
dans le système
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Jamming
changement
dans le système
régime bloqué vs régime libre
nombre de billes
introduction
paradoxes
resultats
conclusion
régime bloqué vs régime libre
nombre de billes
apprentissage bloqué vs app. facile
nombre de paramètres
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Les réseaux de neurones subissent une transition "sharp" quand on varie le nombre de paramètres
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Les réseaux de neurones subissent une transition "sharp" quand on varie le nombre de paramètres
Pour ne pas être bloqué lors de l'entraînement il suffit d'augmenter le nombre de paramètres...
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
introduction
paradoxes
resultats
conclusion
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Les réseaux de neurones subissent une transition "sharp" quand on varie le nombre de paramètres
Pour ne pas être bloqué lors de l'entraînement il suffit d'augmenter le nombre de paramètres...
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
introduction
paradoxes
resultats
conclusion
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
nombre de paramètres
erreur de généralisation
"La double descente"
introduction
paradoxes
resultats
conclusion
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
nombre de paramètres
erreur de généralisation
Jamming !
"La double descente"
introduction
paradoxes
resultats
conclusion
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
nombre de paramètres
erreur de généralisation
Jamming !
Pique au jamming !?
Décroissance régulière
"La double descente"
introduction
paradoxes
resultats
conclusion
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
nombre de paramètres
erreur de généralisation
Jamming !
Pique au jamming !?
Décroissance régulière
"La double descente"
Il faut beaucoup changer les paramètres quand on en a juste assez
Augmenter le nombre de paramètre enlève du bruit
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
introduction
paradoxes
resultats
conclusion
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
On est capable de générer des déformations aléatoires de différentes amplitudes
image originale
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
<- déformations
bruit ->
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
En regardant comment la sortie du réseau est affecté par les différentes entrées
originale
déformée
bruitée
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
Sensibilité relative
erreur de généralisation
sensible à
bruit, déformation
sensible à
bruit, déformation
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
La performance des réseaux de neurones entraînés à classifier des images est corrélée à leur sensibilité relative
Sensibilité relative
erreur de généralisation
sensible à
bruit, déformation
sensible à
bruit, déformation
introduction
paradoxes
resultats
conclusion
Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?
La performance des réseaux de neurones entraînés à classifier des images est corrélée à leur sensibilité relative
Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?
De quelle nature est la transition entre peu et beaucoup de paramètres ?
Les réseaux de neurones subissent une transition "sharp" appelée Jamming quand on varie le nombre de paramètres
Augmenter le nombre de paramètre enlève du bruit
Tout ce travail (présenté) à été fait en collaboration avec
Merci!
Matthieu Wyart, Stefano Spigler, Leonardo Petrini, Stéphane d'Ascoli, Levent Sagun, Marco Baity-Jesi, Giulio Biroli, Arthur Jacot, Franck Gabriel, Clément Ongler, Alessandro Favero
Merci de m'avoir écouté !
😁
soutenance
By Mario Geiger
soutenance
- 633