Nicolas Rochet
Data for Good
Connectez vous pour participer:
Mathématiques
Informatique
"Domain
knowledge"
Discipline utilisant des méthodes scientifiques, algorithmes et systèmes d'information pour extraire des connaissances à partir de données structurées ou non structurées
Science de l'information
...
IMAGES
LANGUAGE
SERIES DE NOMBRES
SONS
METIERS
photos
voix
bruits
avis
commentaires
conversations
météo
capteurs
meta données
site web
applications
logiciels
tweets
ventes
stock
logistique
vidéos
Réseaux sociaux
amis
partages
likes
abonnements
musique
forums
META DONNEES
Volume
Variété
Vélocité
Traiter de grandes quantités de données
Traiter ces données avec une grande vitesse
Traiter de sources de données variées
technologies permettant de produire, collecter, stocker, structurer, accéder, et présenter des données digitales
BIG DATA
DATA SETS
SMALL DATA
Données
Algorithmes
serie non ambigüe d'instructions
représentation informatique d'une information
Problème
Résultats
Traitements
8
40
200
world data consumtion (Zb)
2015
2025
2020
Coût écologique
Impact sociétal
Dépendance aux outils
Assistance de l'humain
Gain de temps
Innovation
Résoudre un problème
Expliquer un phénomène
Découvrir des tendeances
Mathématiques
Informatique
Un data scientist est meilleur en mathématiques qu'un informaticien et meilleur en informatique qu'un mathématicien
Intelligence Artificielle
Algorithmes
Code
Calcul
Statistiques
Probabilités
Infrastructure de données
Algèbre linéaire
Modelisation
Statistiques
Probabilités
Algèbre
Analyse
tendance centrale
Probabilité conditionnelle
Fonctions
Optimisation
Variables
Equations
Visualisations
covariance
modelisation
Théorème de Bayes
corrélation
Espace vectoriel
Plongement
Calcul matriciel
Distributions
Echantillonage
Tests d'hypothèses
intervalle de confiance
Théorème central limite
régularisation
Differentielles
...
Systèmes d'information
Calcul
Programmation
Algorithmes
Structures de données
Langages
Base de données
CPU
GPU
TPU
Frameworks
Bonnes pratiques
Controle de version
Terminal
Conteneur
Orchestrateur
Cloud computing
Machine virtuelle
tests
pipeline
from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
[10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
kmeans.labels_
kmeans.predict([[0, 0], [12, 3]])
Code
Logiciels
KNIME
R
Python
Jupyter notebooks
Tableau Software
Logiciels & Platformes
SAP
Microsoft Power BI
Hadoop
Plateforme SaaS
Scikit learn
Tensorflow
Pandas
ERP
Data management
Déploiement
SQL
No-SQL
Data warehouse
Data lake
Databases
Data structures
ETL
Exploration & Visualisation
CRM
Sales force
...
Big Data
Stockage distribué
Calcul distribué
Code
Git
assistant code
Pipelines
Conteneurs
API
Modeles pré entraines
Hugging Face
Plateformes
...
Blogs & portails
Articles scientifiques
Cours & livres
Wikipedia
Langages
& Logiciels
Une evolution vers 3 grand types de métiers
Specialiste en Data Visualisation
Data analyste
Prepare et explore les données
Répond à une problématique par des analyses
Communique l'information
(data visualisations, tableaux de bord)
Ingénieur IA
Data scientist
Elabore des modèles pour traiter les données
Recherche & applique des algorithmes pour résoudre des problèmes
Interprète et surveille la pertinence des résultats
vision par ordinateur
traitement du langage
Machine Learning
Data Ingénieur
Data Architecte
Récolte les données
Structure les données pour les rendre accessibles
Met en place des outils d'automatisation
Déploie les modèles & algorithmes
Métiers plus orientés informatique
Etapes projet
Chercheur
Ingénieur IA
Data visualiseur
Communiquant
Data Analyste
Data Architecte
Data Manager
Data Scientiste
Decideurs
Ethicien
DPD
Chef de projet
Data ingénieur
Designer
Une grande entreprise veut centraliser les données pour les rendre exploitables par différents services (compabilité, marketing, R&D, ...)
Récolter les données provenant de différentes sources (mails, documents, photos, ...)
Structurer les données dans des bases de données pour les rendre accessibles
Une association veut mesurer et communiquer sur l'utilisation des vélos en ville
Analyser des données déja structurée
Faire des graphiques et savoir les expliquer à un public non expert
Une entreprise de vidéo à la demande veut pour recommander les vidéos les plus adaptées à chaque utilisateur
Utiliser des outils pour automatiser le traitement et la récommandation à donner quand l'utilisateur veut choisir une vidéo
Mettre en place des algorithmes de recommandation qui prennent en compte les caractéristiques des utilisateurs
L'association Open Food Fact veut aider les utilisateurs à catégoriser automatiquement des produits alimentaires à partir de leurs photos
Utiliser des modèles pour prédire le type du produit
Mettre en place des algorithmes pour extraire les données des photos (nom du produit, ingrédients, ...)
Extraire des connaissances
à partir d'un vaste ensemble de données
Les données & méthodes d'analyses sont choisies en fonction du problème
V
S
Déployer &
mettre en production
Structurer les données
Principes d'éthiques
Etude du besoin
Auditer les données
Veille scientifique et technique
Implémenter
algorithmes & modèles
Packaging du code
Livraison
Rapport
Communiquer
Collecte de données
Préparation de donnes
Traitement
des données
Déploiement
Exploration des données
Modelisation
Identification de pattern
Besoin
Problème à résoudre
Réalité
Communication
Visualisation
Rapport
produit/service
Prise de décisions
données
nettoyées
Algorithmes
Adopter les principes d'ethic-by-design !
idée
definition
du
projet
Preuve
de
Concept
développement & déploiement
retours
utilisateur
veille éthique
Intégration & Déploiement continu (CI/CD)
Indicateurs décisionnels
Extraction de données
...
Journaux en ligne
Des plateformes d'experts
de la donnée
Des sites de visualisation de données sociétales
Moteurs de recherche
GPS
Matching
Système de recommandation
Assistants personnels
IA génératives
le site
Le site
le site
...
...
...
Le site
Stratégie & procédures relative à la gestion des données, ses flux, ses accès, son stockage, sa consommation
Chaque domaine organise la gouvernance de ses données
Des services pour assurer une interopérabilité des domaines
Architecture évolutive
Quelles données ?
Le problème
L'idée de solution
La tâche
Quels impacts ?
Quel rendu ?
Connectez vous pour participer: www.wooclap.com/NZLEBL
Connectez vous pour participer:
L'étude et le design d'agents intelligents
Meilleure
que le hasard
Autant qu'un humain
Performances
Programmes
Ensemble de théories et techniques qui confèrent à des machines la capacité d'accomplir des tâches attribuées aux être intelligents
'Agir' comme un humain
'Agir' rationnellement
'Réfléchir' rationnellement
'Réfléchir' comme un humain
The automation of activities that we associate with human thinking, activities such as decision making, problem sloving, learning, ...
Bellmann, 1978
The art of creating machines that perform functions that require intelligence when performed by people.
Kurzweil 1990
Computationnal Intelligence is the study of the design of intelligents agents .
Poole et al. 1998
The study of mental faculties through the use of computationnal models
Charniak & Mc Dermott, 1985
50-56
>2011
93-2011
87-93
80-87
74-80
56-74
Naissance
de l'IA
1er hiver
L'age d'or
2e age d'or
2e hiver
maturité
discrète
Essor du
Deep Learning
une base de connaissances
un ensemble de règles
un moteur d'inférence
Machine learning
Deep learning
50-56
>2011
93-2011
87-93
80-87
74-80
56-74
IA symbolique
Système expert
Deep learning
IA générative
L'apprentissage automatique est un champ de l'Intelligence Artificielle utilisant des méthodes statistiques pour donner aux ordinateurs la capacité d'apprendre (c.a.d augmenter leur performance sur une tâche donnée) à partir des données, sans avoir été explicitement programmé pour résoudre cette tâche
Traduit de la définition d'Arthur Samuels (source : Wikipedia)
Apprentissage auto-supervisé
Apprentissage par renforcement
Apprentissage par transfert
Apprentissage semi-supervisé
Principe :
trouver la règle générale qui relie données et labels
linéaire
logistique
polynomiale
Exemple :
Former des groupes ou partitions (clustering)
Principe :
Un agent apprend les actions à realiser sur son environnement en maximisant une récompense
Exemple avec le traitement de séquence
A l'origine des General Langage Model !
Les réseaux de neurones profonds
humains
artificiels
3 raisons principales
L'essor des méga données ou Big Data
L'augmentation de la puissance de calcul des ordinateurs
Les progrès récents de la recherche
Repose souvent sur des données labellisées (apprentissage supervisé)
Nécessite souvent beaucoup de données
Leurs "décisions" sont difficilememt interprétables
2017
2020
2019
2018
CoVE
BERT
ELMo
T5
CVT
ULMFiT
GPT
CamenBERT
FlauBERT
ALBERT
RoBERTa
GPT-3
ELECTRA
XLNet
BART
GPT-4
Bard
> 2023
...
LLama 3
Ces créations sont elles dues à un humain ou une machine ?
Ces créations sont elles dues à un humain ou une machine ?
MACHINE
Ces créations sont elles dues à un humain ou une machine ?
HUMAIN
Autoportrait par Rembrandt
Ces créations sont elles dues à un humain ou une machine ?
MACHINE
IA de microsoft
projet The Next Rembrandt
Ces créations sont elles dues à un humain ou une machine ?
MACHINE
Ces créations sont elles dues à un humain ou une machine ?
HUMAIN
Allen Ginsberg
That tree said
I don't like that white car under me,
it smells gasoline
That other tree next to it said
O you're always complaining
you're a neurotic
you can see by the way you're bent over
Source: http://botpoet.com/
Ces créations sont elles dues à un humain ou une machine ?
MACHINE
Généré par Racter
A crow is a bird, an eagle is a bird, a dove is a bird.
They all fly in the night and in the day. They fly when the sky is red and when the heaven is blue. They fly through the atmosphere. We cannot fly. We are not like a crow or an eagle or a dove.
We are not birds. But we can dream about them. You can.
Source: http://botpoet.com/
En interne dans les organisations, pour automatiser des tâches
Des entreprises qui vendent des services utilisant ces IAs
Intégrées dans des logiciels grand publics
Depuis quelques années les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes
vidéos
dessins
illustrations
photo realistes
...
Code
paragraphes
questions / réponses
Listes
résumés
...
Les Large Language Models (LLM)
voix
musique
...
"Raisonnement"
Traduction
Résoudre des problèmes mathématiques
Résumer du texte
Répondre à des questions
Conduire un véhicule
Analyse de sentiments
De très gros réseaux de neurones
Entrainés très longuement sur des jeux de données gigantesques ...
... à prédire chaque prochain token d'un texte
Le réseau apprend des représentations complexes (embeding)
Conception & Entraînement
"L'apprentissage automatique est une branche de l'IA
Bonnes capacités de généralisation
Le réseau entrainé a appris des représentations généralisables
Inférence
Génération de texte token par token
Ré-entrainement sur des données spécifiques
Sélectionner un ensemble de documents à donner en contexte
fine tuning
En tant qu'expert de la data science programmant en python ...
contexte : prompt
Retrieval Augmented Generation
Les modèles de fondation fermés (les plus connus)
Interface de chat plus intuitive mais moins paramétrable
Interface plus paramétrable
Les modèles de fondation ouverts (les plus connus)
Large Langage Model Meta AI
Inpainting
Outpainting
Image-to-image
Prompt-to-image
Modifier l'intérieur d'une image
Etendre l'extérieur d'une image
Générer un image à partir d'une image
Générer un image à partir d'une instruction textuelle
Groupe CompViz
Les plus connues
(crédits payants uniquement)
(crédits gratuits & payants)
(crédits payants uniquement)
Générer du son à partir d'une instruction texte (prompt)
Groupe CompViz
Exemple
Connectez vous pour participer:
INDUSTRIE
FINANCE
COMMERCE
MEDECINE
ARTISTIQUE
MEDIA
TRANSPORT
Maintenance
prédictive
Robots
Gestion de flux
Scoring de crédit
Détection de fraude
Trading automatique
Marketing prédictif
Analyse de sentiment
Découverte de traitements
Prédictions de succès ou récidive
Anticipation de pannes
Robots cuisiniers
Robots
Design génératif
Synthèse de sons
Synthèse d'image
Gestion de ressources
Aide au diagnostic
Véhicules autonomes
Résumé automatique
Ecriture automatique
Recommandation de produits
Recommandation de
contenus
légendage
Traitement de
l'image et du son
Traitement
du
langage naturel
Systèmes de
recommandation
Systèmes
prédictifs
Aide à la
décision
Robotique
Optimisation
& planification
Systèmes
de
recommandations
Produits / Services
Contenu
Personnes
Parcours
Evénements
Systèmes
prédicifs
Données
catégorielles
Données
spatio-temporelles
Météo
Pollution
Trafic
Age
Sexe
Données
physiologiques
Molécules
Données
avec des caractéristiques
Pannes
Aide à la
décision
Aide au
diagnostic
Détection
d'anomalie
Maintenance prédictive
Segmentation profils
Matching
Identifier des tendances
Flotte de véhicules
Optimisation & planification
Jeux
Poker
Echecs
Go
Shogi
Dota 2
Starcraft 2
Chaîne de
montage
Gestion de ressources
Matériel
Humains
Supply chain
AlphaZero de DeepMind
OpenAI Bot pour Dota 2
Traitement de
l'image et du son
Description
d'une scène visuelle
Identification des objets
d'une scène visuelle
Colorisation d'images
Détection de pose
Transfert de style
Synthèse de sons
Capture de mouvements
Amélioration de photos
...
Identification des objets
d'une scène visuelle
Description
d'une scène visuelle
colorisation
Corriger des anomalies dans l'image
Image & video in painting
...
super resolution
transfert de style (2015)
transfert de style vidéo et sur les simulation (2019)
Appliquer une perturbation à l'image pour la manipuler
Le trucage par les "deep fake"
ces mêmes méthodes peuvent aussi détecter les deep fake
Retouches d'images avec Open AI Glide
Edition paramétrable de photos avec StyleFlow
Design génératif (Dream Catcher)
Générer des visages
(NVIDIA face generator)
Dessiner une image réaliste à partir d'une ébauche
Changer l'exposition lumineuse d'une vidéo
(Google AI)
Edition de vidéos
Motion capture - Radical
Motion capture dans les vidéos
Déformer des simulations en temps réel
Copier une voix à partir de 5 sec d'enregistrement !
Traitement
du
langage naturel
Synthèse vocale
Reconnaissance
du locuteur
Résumé
Traduction
Sous titrage
Synthèse de texte
Agents conversationnels
Reconnaissance
vocale
Analyse sémantique
synthèse vocale multi langue
Robot Nao
Robot simulateur de patient Pediatric HAL
Robot chirurgien
Shademan et al., 2016
Robots kiva
Les progrès de ses dernières années en IA sont impressionnants !
MAIS on est encore loin d'une Intelligence Artificielle Générale ou d'une Intelligence humaine
Extrait du film Terminator
Extrait du film
Ex Machina
Extrait du film Her
Société
Organisations
Individus
Nuisance écologique
Suppression d'emplois
Induire ou renforcer des inégalités
Invasion de la
vie privée
risques
progrès
Faible prise de conscience
Risque de
dépendance technologique
Amélioration des
conditions de travail
Amélioration du niveau de vie
Assistance de l'humain
Résoudre des problèmes systémiques
Accompagner les progrès de la science
Fiabilité de l'info & Désinformation
Biais & Discriminations
Droits d'auteurs
Energie du stockage & calcul
Recyclage de l'informatique
réduire les biais dès le départ : ethic by design
Respect de la vie privée
Methodologie & code transparents
Modèles interprétables
Stockage et entrainement
Impact sur les utilisateurs
Bias dans les données &
modéles
Données accessible
Empreinte écologique
Inférence pour un grand nombre
From november 2017
...
10 propositions pour une IA innovante et fiable
Exemple
Assurer la confidentialité
Privilégier données et modèles ouverts
Privilégier des modèles interprétables
Mesurer les impacts de la solution
Surveiller les biais dans les données et modèles
Mesurer l'impact de sa chaine de traitement
Utiliser des outils pour rendre les modèles interprétables
in application since May 2018 !
AI systems will be classified as 4 levels of risks for users
applicable in 2025
IAs considérées comme une menace
ayant un impact négatif
8 domaines sensibles
IAs génératives
celles qui respectent la vie privée
devront être enregistrée à l'UE
services en ligne, recommandations, ...
IA des jeux vidéos, anti spam, ...
manipulation des comportements
notation sociale
pas d'impact négatif significatif
17 objectifs de développement durable
Fournir des recommandations de vidéos d'intérêt général
Base de données collaboratives de produits
Sensibiliser les commerces à éteindre leurs lumières
Mesurez au jour le jour votre empreinte carbone
Faciliter l'exploration de la biodiversité et de la littérature scientifique pour l'innovation biomimétique
Déployer &
mettre en production
Structurer les données
Principes d'éthiques
Etude du besoin
Auditer les données
Veille scientifique et technique
Implémenter
algorithmes & modèles
Packaging du code
Livraison
Rapport
Communiquer
Panneau de bord pour la synthèse d'information
Besoin
Structure
Données
Solution & livrable
Développer un tableau de bord pour synthétiser et piloter des données de fonds humanitaire
Agence publique de gestion de fonds
Experts métiers associatifs
Pas de culture de la donnée
Données financières de structures réparties dans le monde
Données relatives à la gestion des projets
Structure de donnée pour centraliser et structurer les données + panneau de bord
Extraction d'informations patients
Besoin
Structure
Données
Solution
Livrable
Extraire des informations de documents à des fins d'analyses statistiques
Association
Pas de métiers data - faible culture data
30 Go données de compte rendu d'analyses patients
différents formats (image, pdf, tableur) sur différents sites
Algorithme pour l'extraction et la structuration d'information
Fichiers contentant les informations consolidées
Algorithme de recommandation de contenu à portée medicale
Besoin
Structure
Données
Solution
Livrable
Proposer des recommendations de contenu pour les patients
PME medicale
1 data analyste debutant en poste
données physiologiques sur 500 patients
articles & vidéos (pathologies) : quelques Go
peu de données renseignant les préférences des utilisateurs
Algorithme de recommendation de contenu
Conteneur contenant le code et une API pour requêter
Assistance à la constitution de cohortes patients
Besoin
Structure
Données
Solution
Livrable
Développer des méthodes d'analyse robustes pour faciliter la constiution de des cohortes de patients
Startup médicale proposant un logiciel de management de données médicale
Bonne culture data - 1 data architecte
100taine de Go de données de d'imagerie et textuelle
sources : différents sites et machines/logicielle
Algorithmes & modèle de clustering
Identifications de groupes caractéristiques et explication des critères de constitution
Assistance aux calcul du bilan carbone
Besoin
Structure
Données
Solution
Livrable
Proposer un agent conversationnel pour le calcul du bilan carbone pour les entreprises
Startup tech
Spécialiste de la data - 1 data scientist & 1 chef de projet
Données textuelles et chiffrées ouvertes disponibles
Récolte de données automatisée
Agent conversationnel (modèle ouvert)
Solutions logicielle complète : interface + algorithmes et infrastructure IA
Assistance à la segmentation et l'identification de structures dans des organes
Besoin
Structure
Données
Solution & Livrable
Interfacer des algorithmes de vision par ordinateurs aux logiciels de radiologues
Hopitaux
Spécialistes métiers
1 DSI : un data manager + développeurs
Données d'imageries médicales (IRM, scanner) hétérogènes (quelques To) peu annotées
Algorithmes + API pour l'intégration au logiciel
Prédictions en temps réel d'état physiologiques
Besoin
Structure
Données
Solution
Livrable
S'interfacer avec une simulation en RV pour prédire les états des participants et adapter la simulation
Startup spécialisée dans le traitement de signaux
Neuroscientifiques et ingénieurs traitement du signal
1 data scientist + 1 débutant
Développeurs Jeux vidéos
Séries temporelles physiologiques (EMG, BPM, EEG, conductance de la peau) + Méta données
Algorithmes de classification de profil d'utilisateurs
Algorithmes de génération de signal réaliste
Algorithmes interfacés avec le code de la simulation
Reformuler et traduire le besoin en terme métier
Prendre en compte les aspects éthiques & réglementaires
Proposer des solutions algorithmiques
Formuler des recommandations concernant la gouvernance des données
Décrire les données à utiliser
Proposer un livrable clair
Variables ? Sources ? Condition d'utilisation
Cas 1 : Solutions pour développer la Smart City
Besoin
Structure
Données
Mettre en place des solutions pour la smart city
Consortium d'acteurs public : Région + Mairies + Métropole
Faible culture data : 2/5
Experience data peu experimenté : 2.5/5
Centaines de To réparties sur différentes structures
Données administatives
Partenariat possible avec des gros acteurs :
Energie / Eau / Transport / Pollution
Quelques profils data mais dispersés entre les organisations
Contraintes
Mutualisation des solutions
Contraintes éthiques & réglementaires
Cas 2 : Analyser la perception des individus sur l'écologie
Besoin
Structure
Données
Analyser la perception des pays de différents continents sur l'écologie
Cabinet de conseil
Assez bonne culture data : 3/5
Experience data plutôt experimenté : 3.5/5
Rechercher des données ouvertes uniquement
Proposer des futures campagnes de collecte
Pas de profils data mais des chefs de projets data
Challenge
Trouver des données suffisamment granulaires
Cas 3 : Assistant personnel pour la transition écologique
Besoin
Structure
Données
Développer un assistant personnel pour l'aide à la transition écologique
Association
Bonne culture data : 4/5
Experience data assez experimenté : 3/5
Utiliser des données ouvertes sur les comportements individuels
Prévoir des modes d'acquisition de données
En interne : des développeurs
Possibilité de solliciter les compétences d'une communauté de bénévoles
Challenge
Inciter les individus à partager leur données
Cas 4 : Développer l'aide à la consultation par télémédecine
Besoin
Structure
Données
privées
Proposer des solutions pour l'assistance à la consultation en télé médecine
Consortium de cabinets médicaux
faible culture data : 1.5/5
Experience data assez experimenté : 3/5
Grosse volumétrie de données d'imageries (centaine de To)
Données textuelles de compte rendus d'analyses
Données administratives & personnelles sur les patients
En poste : Un data scientist & un data analyste
Contrainte
Données sensibles soumises aux réglementations
Cas 5 : Identifier des sites de production
Besoin
Structure
Données
privées
Identifier des sites pour l'installation de sites de production d'énergie renouvellable (monde)
Grand groupe spécialisé dans l'énergie
Bonne culture data : 4/5
Experience data assez experimenté : 3/5
Données privées agrégées de consommation
Données cartographiques ouvertes à exploiter
Quelques données IoT mais prévoir la généralisation de leur collecte
En poste : Des experts métiers sur différents énérgie
Un pôle data : data management + data scientist & analystes
Challenges
Granularité des données et solution à destination de non spécialistes de la data