Contenu tiré de l'excellent cours du MIT
MIT 6.S191: Introduction to Deep Learning
IntroToDeepLearning.com
© Alexander Amini and Ava Soleimany
Descente de gradient classique
Moment (ajoute de l'inertie)
Adagrad (learning rate adaptatif)
RMSprop (ajoute un decay)
Adam (tout combiné)
Batch : nombre d'échantillon servant à mettre à jour
chaque calcul du gradient
Epoch : nombre de fois ou l'algorithme de la descente de gradient est passé sur toutes les données
Source : Machine Learning Mastery
Batch gradient descent
Stochastic gradient descent
Mini-Batch gradient descent
batch size = training size
batch size = 1
1< batch size < training size
Batch
Epoch
Technique courante consistant à appliquer une normalisation à la sortie d'une couche, calculée sur les données de chaque batch
Stabilise le réseau : limite les effets d'explosion ou de disparition du gradient
Principe
Effets
Accèlere les calculs
Effet similaire à une régularisation
By Nicolas Rochet
Bases du deep learning