Loss landscape and symmetries in Neural Networks

Paysage de la fonction de coût et symétries dans les réseaux de neurones

Candidat: Mario Geiger
Professeur: Matthieu Wyart

Laboratoire de physique des systèmes complexes

Introduction au "deep learning"
Les paradoxes du deep learning
Quelques resultats
1. La transition de "Jamming"
2. La double descente
3. Les régimes Feature & Lazy
4. La stabilité aux déformations
5. Réseaux de neurones équivariants
Conclusion

introduction

paradoxes

resultats

conclusion

Introduction au "deep learning"
Les paradoxes du deep learning
Quelques resultats
1. La transition de "Jamming"
2. La double descente
3. Les régimes Feature & Lazy
4. La stabilité aux déformations
5. Réseaux de neurones équivariants
Conclusion

introduction

paradoxes

resultats

conclusion

Introduction au "deep learning"
Les paradoxes du deep learning
Quelques resultats
1. La transition de "Jamming"
2. La double descente
3. Les régimes Feature & Lazy
4. La stabilité aux déformations
5. Réseaux de neurones équivariants
Conclusion

introduction

paradoxes

resultats

conclusion

Introduction au "deep learning"
Les paradoxes du deep learning
Quelques resultats
1. La transition de "Jamming"
2. La double descente
3. Les régimes Feature & Lazy
4. La stabilité aux déformations
5. Réseaux de neurones équivariants
Conclusion

introduction

paradoxes

resultats

conclusion

introduction

paradoxes

resultats

conclusion

Introduction

Qu'est-ce que le "deep learning"?
Comment ça fonctionne?
Utilisé pour quoi?

introduction

paradoxes

resultats

conclusion

Intelligence Artificielle

Un peu de terminologie

introduction

paradoxes

resultats

conclusion

Intelligence Artificielle

Machine Learning

Un peu de terminologie

introduction

paradoxes

resultats

conclusion

Intelligence Artificielle

Machine Learning

Un peu de terminologie

introduction

paradoxes

resultats

conclusion

Intelligence Artificielle

Machine Learning

Réseaux de Neurones

Un peu de terminologie

introduction

paradoxes

resultats

conclusion

Intelligence Artificielle

Machine Learning

Réseaux de Neurones

Réseaux de Neurones Profonds

"Deep Networks"

Un peu de terminologie

introduction

paradoxes

resultats

conclusion

Comment fonctionne le ?

Avec un "modèle"

et des paramètres

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Le "dataset"

(les exemples)

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Le "dataset"

(les exemples)

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Le "dataset"

(les exemples)

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

entrée

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Avec un "modèle"

et des paramètres

entrée

sortie

Comment fonctionne le ?

Machine Learning

introduction

paradoxes

resultats

conclusion

Machine Learning

Réseaux de Neurones

Profonds

"Deep Networks"

introduction

paradoxes

resultats

conclusion

Machine Learning

Réseaux de Neurones

Profonds

"Deep Networks"

introduction

paradoxes

resultats

conclusion

Réseaux de Neurones

Profonds

"Deep Networks"

Le modèle est semblable à des neurones interconnectés

introduction

paradoxes

resultats

conclusion

Réseaux de Neurones

Profonds

"Deep Networks"

avec beaucoup de paramètres!!!

introduction

paradoxes

resultats

conclusion

avec beaucoup de paramètres!!!

des millions de paramètres!

Réseaux de Neurones

Profonds

"Deep Networks"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

introduction

paradoxes

resultats

conclusion

entrée

sortie

beaucoup d'exemples

Comment les paramètres sont-ils ajusté?

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

Comment les paramètres sont-ils ajusté?

via un "entrainement"

introduction

paradoxes

resultats

conclusion

entrainement terminé!

introduction

paradoxes

resultats

conclusion

entrainement terminé!

on peut maintenant utiliser nôtre modèle

introduction

paradoxes

resultats

conclusion

entrainement terminé!

on peut maintenant utiliser nôtre modèle

introduction

paradoxes

resultats

conclusion

On a vu comment les réseaux de neurones sont entraînés

À quoi ça sert les réseaux de neurones ?

Quelques exemples suprenants

introduction

paradoxes

resultats

conclusion

On a vu comment les réseaux de neurones sont entraînés

À quoi ça sert les réseaux de neurones ?

Quelques exemples suprenants

introduction

paradoxes

resultats

conclusion

Les voitures autonomes utilisent un réseau de neurones pour interpréter les images capturées par leurs caméras

introduction

paradoxes

resultats

conclusion

On peut créer des images de synthèse très réalistes avec un réseau de neurone

Ces deux images proviennent du site https://thispersondoesnotexist.com/

introduction

paradoxes

resultats

conclusion

Les réseaux de neurones sont très doués pour complèter du texte

introduction

paradoxes

resultats

conclusion

Les réseaux de neurones sont très doués pour complèter du texte

introduction

paradoxes

resultats

conclusion

Les réseaux de neurones sont très doués pour complèter du texte

Ces exemples sont généré avec Github copilot et beta.openai.com/playground

700GiB de paramètre et 1TiB de texte pour l'entrainer

introduction

paradoxes

resultats

conclusion

La forme d'une protéine prédite à l'aide d'un réseau de neurone

entrée: chaîne d'acide aminés sortie: la forme de la protéine

TDELLERLRQLFEELHERGTEIVVEVHINGERDEIRVRNISKEELKKLLERIREKIEREGSSEVEVNVHSGGQTWTFNEK

introduction

paradoxes

resultats

conclusion

Les réseaux de neurones sont entraîné en ajustant des millions de paramètres
Ils sont polyvalent. Ils peuvent être entraîné à manipuler des images, du texte, du son, des données scientifiques etc.
Ils fonctionnent très bien...

Mais on ne comprends pas bien comment ils fonctionnent

introduction

paradoxes

resultats

conclusion

Paradoxes

Les trois raisons principales pour lesquelles les réseaux de neurones ne devraient pas fonctionner

Pourquoi l'entraînement ne se bloque-t-il pas ?
Comment peuvent-ils si bien fonctionner avec autant de paramètres ?
"La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

1. Pourquoi l'entraînement ne se bloque-t-il pas ?

On s'attendrait à avoir un équilibre

introduction

paradoxes

resultats

conclusion

1. Pourquoi l'entraînement ne se bloque-t-il pas ?

Peu de paramètres

Beaucoup de paramètres

On est bloqué dans un équilibre

On arrive à trouver des paramètres qui "fittent" toutes les données d'entrainement

Baity-Jesi et al. (2018)

introduction

paradoxes

resultats

conclusion

1. Pourquoi l'entraînement ne se bloque-t-il pas ?

Peu de paramètres

Beaucoup de paramètres

On est bloqué dans un équilibre

On arrive à trouver des paramètres qui "fittent" toutes les données d'entrainement

De quelle nature est la transition entre ces deux régimes ?

Baity-Jesi et al. (2018)

introduction

paradoxes

resultats

conclusion

2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?

Pour mesurer la performance d'un réseau de neurones on utilise

"l'erreur de généralisation"

introduction

paradoxes

resultats

conclusion

2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?

introduction

paradoxes

resultats

conclusion

2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?

Neyshabur et al. (2017, 2018); Bansal et al. (2018); Advani et al. (2020)

introduction

paradoxes

resultats

conclusion

2. Comment peuvent-ils si bien fonctionner avec autant de paramètres ?

Pourquoi l'erreur décroît avec le nombre de paramètres ?

Neyshabur et al. (2017, 2018); Bansal et al. (2018); Advani et al. (2020)

Comment arrivent-ils à apprendre avec des données en grande dimension ?

3. "La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

Comment arrivent-ils à apprendre avec des données en grande dimension ?

3. "La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

Comment arrivent-ils à apprendre avec des données en grande dimension ?

3. "La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

Comment arrivent-ils à apprendre avec des données en grande dimension ?

3. "La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

139

140

142

139

140

142

139

140

142

139

140

142

Comment arrivent-ils à apprendre avec des données en grande dimension ?

3. "La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

139

140

142

139

140

142

139

140

142

139

140

142

Une image est représentée par des millions de nombres

3. "La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

177 238 168 140 181 156 253 128 205 159 155 196 234 150 126 190 182 ...

116 217 232 131 222 130 233 149 156 140 188 177 111 161 178 128 148 ...

Bien que ces deux images sont très similaires, leur représentation numérique diffère beaucoup

3. "La malédiction de la dimension"

introduction

paradoxes

resultats

conclusion

177 238 168 140 181 156 253 128 205 159 155 196 234 150 126 190 182 ...

116 217 232 131 222 130 233 149 156 140 188 177 111 161 178 128 148 ...

Bien que ces deux images sont très similaires, leur représentation numérique diffère beaucoup

similaire à l'oeil

à l'air complètement différent

introduction

paradoxes

resultats

conclusion

3. "La malédiction de la dimension"

proposition Les réseaux de neurones apprennent à être stable par rapport aux déformation des images

Bruna and Mallat (2013); Mallat (2016)

Peut-t-on le vérifier expérimentalement ?

introduction

paradoxes

resultats

conclusion

Les 3 questions auxquelles j'ai répondu dans ma thèse

De quelle nature est la transition entre peu et beaucoup de paramètres ?

introduction

paradoxes

resultats

conclusion

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Les 3 questions auxquelles j'ai répondu dans ma thèse

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Les 3 questions auxquelles j'ai répondu dans ma thèse

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

De quelle nature est la transition entre peu et beaucoup de paramètres ?

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

paramètres

(degrés de liberté)

exemples à "fitter"

(contraintes à satisfaire)

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

paramètres

(degrés de liberté)

exemples à "fitter"

(contraintes à satisfaire)

Beaucoup de problèmes en physique sont de cette nature

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

paramètres

(degrés de liberté)

exemples à "fitter"

(contraintes à satisfaire)

Beaucoup de problèmes en physique sont de cette nature

Pour tous ces problèmes, les physicien-nes ont découvert une transition universelle appelée "Jamming"

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Jamming

changement

dans le système

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Jamming

changement

dans le système

régime bloqué vs régime libre

nombre de billes

introduction

paradoxes

resultats

conclusion

régime bloqué vs régime libre

nombre de billes

apprentissage bloqué vs app. facile

nombre de paramètres

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Les réseaux de neurones subissent une transition "sharp" quand on varie le nombre de paramètres

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Les réseaux de neurones subissent une transition "sharp" quand on varie le nombre de paramètres

Pour ne pas être bloqué lors de l'entraînement il suffit d'augmenter le nombre de paramètres...

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

introduction

paradoxes

resultats

conclusion

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Les réseaux de neurones subissent une transition "sharp" quand on varie le nombre de paramètres

Pour ne pas être bloqué lors de l'entraînement il suffit d'augmenter le nombre de paramètres...

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

introduction

paradoxes

resultats

conclusion

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

nombre de paramètres

erreur de généralisation

"La double descente"

introduction

paradoxes

resultats

conclusion

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

nombre de paramètres

erreur de généralisation

Jamming !

"La double descente"

introduction

paradoxes

resultats

conclusion

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

nombre de paramètres

erreur de généralisation

Jamming !

Pique au jamming !?

Décroissance régulière

"La double descente"

introduction

paradoxes

resultats

conclusion

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

nombre de paramètres

erreur de généralisation

Jamming !

Pique au jamming !?

Décroissance régulière

"La double descente"

Il faut beaucoup changer les paramètres quand on en a juste assez

Augmenter le nombre de paramètre enlève du bruit

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

introduction

paradoxes

resultats

conclusion

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

On est capable de générer des déformations aléatoires de différentes amplitudes

image originale

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

<- déformations

bruit ->

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

En regardant comment la sortie du réseau est affecté par les différentes entrées

originale

déformée

bruitée

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

Sensibilité relative

erreur de généralisation

sensible à

bruit, déformation

sensible à

bruit, déformation

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

La performance des réseaux de neurones entraînés à classifier des images est corrélée à leur sensibilité relative

Sensibilité relative

erreur de généralisation

sensible à

bruit, déformation

sensible à

bruit, déformation

introduction

paradoxes

resultats

conclusion

Peut-t-on vérifier expérimentalement que les réseau de neurones sont stable par rapport aux déformations des images ?

La performance des réseaux de neurones entraînés à classifier des images est corrélée à leur sensibilité relative

Pourquoi l'erreur de généralisation décroît avec le nombre de paramètres ?

De quelle nature est la transition entre peu et beaucoup de paramètres ?

Les réseaux de neurones subissent une transition "sharp" appelée Jamming quand on varie le nombre de paramètres

Augmenter le nombre de paramètre enlève du bruit

Tout ce travail (présenté) à été fait en collaboration avec

Merci!

Matthieu Wyart, Stefano Spigler, Leonardo Petrini, Stéphane d'Ascoli, Levent Sagun, Marco Baity-Jesi, Giulio Biroli, Arthur Jacot, Franck Gabriel, Clément Ongler, Alessandro Favero

Merci de m'avoir écouté !

😁

Loss landscape and symmetries in Neural Networks

Paysage de la fonction de coût et symétries dans les réseaux de neurones

Candidat: Mario Geiger Professeur: Matthieu Wyart

Introduction

Paradoxes

Candidat: Mario Geiger
Professeur: Matthieu Wyart