Vincent Ogloblinsky - @vogloblinsky
Vincent Ogloblinsky
Compodoc maintainer
Architecte logiciel web / Référent Open-Source
Indie hacker on personal side-projects
Side projects récents
1973 - AARON par Harold Cohen
2014 - GANs (Generative Adversarial Networks)
2015 - DeepDream / Google
2021 - DALL-E / Open AI, etc
2009 - Imagenet dataset avec 14 millions d'images annotées
L'idée simple et magique : à partir d'un texte, obtenir une image
a skateboarder doing a trick in the air, skatepark in the background, wide angle, ultra photoreal, photography style, 85mm bookeh detailed, high resolution...
Boîte noire
Mots encodés en vecteurs : relations entre ces mots
Text encoding
Choix du modèle très important
Stable diffusion utilise OpenClip ( GPT based model - 354M paramètres)
Modèle entrainé sur plus de 400 millions d'images annotées
Training simplifié - image et légende sont encodées
Training simplifié - Comparaison
Training simplifié - Renforcement
Modèles génératifs
Modèles de diffusion
Modèles de diffusion : entraîner à enlever du bruit sur une image
Modèle de diffusion
Création du dataset
Création du dataset
Création du dataset
Entrainement du modèle de diffusion (forward diffusion)
Création d'une image (reverse diffusion)
Création d'une image (reverse diffusion)
Aucun contrôle sur l'image produite
Création d'une image avec contrôle
Aucun contrôle sur l'image produite
Mise à jour du dataset avec les légendes tokenisées
Aucun contrôle sur l'image produite
Aucun contrôle sur l'image produite
Aucun contrôle sur l'image produite
Aucun contrôle sur l'image produite
En plus d'un contrôle textuel, la génération d'image peut être guidée
Aucun contrôle sur l'image produite
"Les bons artistes copient, les grands artistes volent..." - Steve Jobs 1984
Beaucoup de modèles OSS :
- Stable Diffusion (+ Dreambooth)
- Craiyon
- modèles Hugging Face
Beaucoup de dérivés de Stable Diffusion (training custom)
https://dataconomy.com/2023/08/28/best-stable-diffusion-models-how-to-use/
DALL-E 3 - OpenAI
Et plus encore ...
Paint !!!
Windows 11 22H2 Update
Cet appareil photo IA vous déshabille en quelques secondes
Industrie de l'information :
- fake news
- photo d'illustration en DR
Gros problème de confiance et à la fois d'évangélisation du public
Industrie du jeu vidéo :
- hyperscaling - creation d'assets ou texturing - 3D models
- évolution de certains métiers et processus créatif
Industrie de la photo de masse :
- plateformes l'intègre mais ne sont qu'intermédiaires
- mais à terme ce sont les créateurs qui pourraient en patire
Industrie publicitaire :
- problème de confiance
Réseaux sociaux :
Deep fakes
Porn revenge
Problèmes actuels amplifiés (dépression, anxiété, narcissisme, comportements anti-socials)
Big bubble ?
NFT (& Web3 ?) are dead
Les IAs générative sont des accélérateurs ouvrant des opportunités encore jamais atteintes à cause de contraintes technologiques.
Ça bouscule pas mal d'industrie qui généralement doivent s'adapter avec hélas pertes et fracas.
Certains métiers se ré-inventent, d'autres disparaissent, et d'autres apparaissent.
Les métiers créatifs resteront pré-dominants : les IAs doivent être entrainées ou renforcées par de nouvelles données.
Outils puissants disponibles pour le grand public.
Un processus créatif reste un processus créatif : le meilleur prompt engineer du monde ne sera jamais meilleur qu'un photographe avec un vrai style et une vraie "patte".
Aucune AI ne remplacera l'authenticité et les expériences réelles.
Des questions ?
Slides : https://bit.ly/48rOF3j
Crédit photos - Unsplash.com