Data Science Lead @Valoway
Mission actuelle :
Data Science Lead @IMA
Le scenario typique d'apprentissage par renforcement: un agent effectue une action sur l'environnement, cette action est interprétée en une récompense et une représentation du nouvel état, et cette nouvelle représentation est transmise à l'agent
-- Wikipédia
Victoire écrasante d'OpenAI Five :
OpenAI 3 - 0 Human
Un match en 14 minutes (moyenne est de 45)
Le dernier match, les héros ont été choisis par le public
Fondamentalement : Rien
Ne pas oublier ce qu'il s'est passé pour le jeu de Go
AlphaZero est un algorithme capable d'apprendre sans intervention humaine aussi bien le jeu de Go que les échecs, Atari, ...
Est-ce qu'il y aura une version OpenAI Zero ?
L'impact sur le monde de l'eSport ($900 millions de revenue en 2018) ?
https://www.nytimes.com/2018/11/18/technology/artificial-intelligence-language.html
Le NLP (Natural Language Processing) concerne l'interaction entre les langages humains et la machine.
Quelques exemples :
Expertise forte, spécialisée et longue pour chaque problématique.
Comment le domaine de la vision par ordinateur a résolu ce problème
Concours annuel de reconnaissance visuelle à grande échelle. Environ 15 millions d'image pour 20 000 classes à détecter
Human
Deep Learning
Réutilisation des meilleurs modèles entrainés sur ImageNet
ImageNet
ResNet, Inception, ...
Entreprise
1. Temps
2. Moins besoin d'expertise en Deep Learning ($$$)
3. 'Assurance' d'avoir une bonne performance
Pas un dataset unique mais une multitude
(en représentation des mots)
< 2012
2012 < d < 2018
tf-idf
fast-text > w2v / glove
(en représentation des mots)
I like to eat my cereals with an apple.
Apple is a highly profitable company.
Le mot "Apple" est représenté par un seul vecteur dans l'espace.
Envie :
Avoir une représentation du mot "Apple" dans une région de l'espace avec de la nourriture pour la première phrase et une autre représentation dans une région avec des noms d'entreprise pour la deuxième phrase.
Millésime 2018
Performance ?
D'énormes avancées dans le domaine du NLP.
Il faut voir dans la pratique ce qui se passe maintenant.
Bert a une longueur d'avance par la qualité délivrée et l'engouement généré (1000+ étoiles sur Github en un mois).
Les data scientists commencent à l'évaluer sérieusement et à l'utiliser (moi le premier...)
Article de Rachel Thomas :
https://www.fast.ai/2018/07/12/auto-ml-1/
Toute cette partie de la présentation est inspirée sur ses excellents articles sur l'AutoML. A lire et à relire.
1. Le concept de "Projet Data" est encore immature
Machine Learning Yearnings, Andrew Ng
2. L'organisation d'une équipe Data est immature
How should you structure your Data Science and Engineering teams?
3. Compétence est trop rare
Méthodes automatiques pour sélectionner des modèles et/ou optimiser des hyper-paramètres.
Beaucoup de systèmes open-source existent : AutoWeka, Auto-sklearn
Permet de poser une bonne baseline pour connaître le niveau de performance sur un problème donné
Pourquoi regarder du code quand on peut avoir une interface web ?
Tout le monde court dans cette direction ! (avec des plateformes +/- spécialisées)
Quelques leaders :
Comment ?
Selon la page d'AutoML, grâce à une combinaison de Transfert Learning et de Neural Architecture Search
Sous domaine de l'AutoML
Penn TreeBank -- Predict next word
https://ai.googleblog.com/2017/05/using-machine-learning-to-explore.html
Differentiable Architecture Search, Carnegie Mellon University and DeepMind
NAS Classique :
Utilisation d'algorithmes d'apprentissage par renforcement ou évolutionnaires dans un espace discret et non dérivable
=> Très très long
Nouvelle approche par DARTS :
Relaxation continue de l'architecture. Ce qui permet de chercher une solution optimale avec de la descente de gradient
Si tu as du temps mais pas d'argent
Plusieurs solutions existent, le plus mature est AutoKeras
=> Implémentations de plusieurs algorithmes NAS
Beaucoup d'entreprises veulent s'assurer que si vous avez de l'argent mais pas de compétences, vous puissiez quand même résoudre vos problèmes.
Et c'est bien.
Mais attention à la dépendance.
Google AutoML, comme quasiment toutes les solutions sur le marché, ne permettent ni d'exporter les modèles appris ni une bonne reproductibilité des résultats hors de leur écosystème.
Jeff Dean, Google's head of AI, suggère que 100 fois plus de puissance de calcul pourrait remplacer l'expertise en machine learning (23:50 dans cette keynote).
Ne pas oublier que Google veut nous faire penser que pour mieux utiliser du Deep Learning, il faut plus de puissance de calcul (où ils sont les meilleurs dans ce domaine). Si c'est vrai, on va tous devoir acheter du Google Cloud.
https://reiinakano.github.io/arbitrary-image-stylization-tfjs/
#lookcoolonlinkedin
http://pozus.io/ -- Marche sur mobile !
Ne nous endormons pas, le monde de la Data Science avance très vite.