Workshop data & IA responsable

9 Avril 2026

Nicolas Rochet

Qui suis je ?

Data for Good

Senior data scientist

Activité participative

Datascience, IA & vous

Connectez vous pour participer :

https://app.wooclap.com/ABRPLX

Introduction 

Démystification 

&

Définition résumée

Mathématiques

Informatique

"Domain

knowledge"

Discipline utilisant des méthodes scientifiques, algorithmes et systèmes d'information pour extraire des connaissances à partir de données structurées ou non structurées

Science de l'information

IA: Une définition simplifiée

Ensemble de théories et techniques qui confèrent à des machines la capacité d'accomplir des tâches attribuées aux être intelligents

Une brève histoire de l'IA

50

 

 >2011

93-2011

87-93

80-87

74-80

56-74

Naissance

de l'IA

1er hiver

L'age d'or

2e age d'or

2e hiver

maturité

discrète

Essor du

Deep Learning

 >2019

Explosion
IA gen

Disciplines de l'IA

IA GENERALE

Systèmes Experts

RAISONNEMENT

REPRESENTATION DES CONNAISSANCES

Planification

NEURO SYMBOLIQUE

Apprentissage profond

APPRENTISSAGE AUTOMATIQUE

INTELLIGENCE SOCIALE

Modèles Génératifs

LLMs

VLMs

SYSTEMES MULTI AGENTS

Prise de décision

Apprentissage par renforcement

ROBOTIQUE

VISION PAR ORDINATEUR

TRAITEMENT DU LANGAGE

RESOLUTION DE PROBLEMES

Quelques domaines d'applications

Traitement de
l'image et du son

Traitement

du

langage naturel

Systèmes de

recommandation

Systèmes

prédictifs

Aide à la

décision

Robotique

Optimisation

& planification

Les disciplines phares de l'IA

Quelques domaines métiers

INDUSTRIE

FINANCE

COMMERCE

MEDECINE

ARTISTIQUE

MEDIA

TRANSPORT

...

Maintenance

prédictive

Robots

Gestion de flux

Scoring de crédit

Détection de fraude

Trading automatique

Marketing prédictif

Analyse de sentiment

Découverte de traitements

Prédictions de succès ou récidive

Anticipation de pannes

Robots cuisiniers

Robots

Design génératif

Synthèse de sons

Synthèse d'image

Gestion de ressources

Aide au diagnostic

Véhicules autonomes

Résumé automatique

Génération de contenu

Recommandation de produits

Recommandation de

contenus

légendage

Assistance à la veille

Chat GPT n'est pas l'IA générative ! 

l'IA générative n'est pas l'IA ! 

IA générative

deep learning

machine learning

IA

Démystifions l'IA

Chat GPT n'est pas l'IA générative ! 

2017

2020

2019

2018

CoVE

BERT

ELMo

T5

CVT

ULMFiT

GPT

CamenBERT

FlauBERT

ALBERT

RoBERTa

GPT-3

ELECTRA

XLNet

BART

GPT-4

Bard

> 2023

...

LLama 3

Il existe d'autres types d'IAs

que celle basée sur le machine learning ! 

L'algorithme du plus court chemin :
à la base du GPS

Un algorithme de système expert

Exemple :  les LLMs ne sont pas bon pour les jeux

Le chat joue un coup interdit !

Du machine Learning

aux

modèles génératifs

Zoom sur le Machine Learning

Supervisé

...

Auto supervisé

Non supervisé

Semi Supervisé

Apprentissage par renforcement

"machine learning is the most popular domain of   AI

0

data

label

Une partie seulement des données sont labelisées

... vers le deep learning

 Transformers

...

+

Large Langage Models (LLM)

Vision Transformers (ViT)

Architecture reprise dans différents types de modèles

Modèles de raisonnement

Modèles multimodaux

...

IA générative : la génèse

Depuis l'année 2018 les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes

Des images/vidéo

vidéos

dessins

illustrations

photo realistes

...

Du texte

Code

paragraphes

questions / réponses

Listes

résumés

...

Les Large Language Models (LLM)

Des sons

voix

musique

...

assistant vocaux

Posts

IA générative ?

L'architecture des Transformers

Générer/modifier des images

Architecture reprise dans différents types de modèles

 Des capacités qui permettent de réaliser des tâches de plus en plus complexes

Extraction d'information

Résumer des infomations

Retranscrire du texte

Décrire une image

Produire un raisonnement

Résoudre des problèmes mathématiques

Coder des logiciels

...

...

Les capacités des IAs génératives

 Des capacités croissantes qui permettent de réaliser des tâches de plus en plus complexes

Différentes "tailles" de modèles

On rencontre souvent 3 tailles

Petit

Moyen

Grand

1.5b - 5b

> 100b

10b - 15b

Capacités croissante

Pages des modèles de Hugging Face

Comment cela fonctionne ?

De très gros réseaux de neurones

Entrainés très longuement sur des jeux de données gigantesques ...

... à prédire chaque prochain token d'un texte

Exemple simplifié de la génération de texte

Conception & Entraînement

"L'apprentissage automatique est une branche de l'IA

 Bonnes capacités de généralisation

image reseau neuroneCreated by Mohamed Mbfrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

Mais pas pour tous les problèmes !

Le réseau entrainé a appris des représentations généralisables

Exemple simplifié de la génération de texte

Inférence

Génération de texte token par token

Ré-entrainement sur des données spécifiques

Sélectionner un ensemble de documents à donner en contexte

Noun_Project_50Icon_10px_grid Created by Yana Sapeginafrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

fine tuning

 En tant qu'expert de la data science programmant en python ...

contexte : prompt

Retrieval Augmented Generation (RAG)

+

De très gros réseaux de neurones pré-entrainés capables d'être utilisés pour différentes tâches

Les modèles de fondation

image reseau neuroneCreated by Mohamed Mbfrom the Noun Project

On leur ajoute quelques composants

Un prompt système

Des gardes fous et protections

Un entraînement supplémentaire : apprentissage par renforcement à partir de feedback humain (RLHF)

Ils sont à la base de pleins d'applications connues

Chatbot

IA pour l'image/vidéo

IA pour le raisonnement

...

La chaîne de pensée (CoT)

Articuler une succession d’étapes de raisonnement, pour mieux orienter le  modèle dans la génération de réponses

La chaîne de pensée (CoT)

Résoudre un problème de maths

Réaliser de la veille

A la base de nombreux modèles de raisonnement aujourd'hui !

DeepSeek

GPT 4o

Claude Sonnet

...

Utile pour certaines tâches: 

Comment bien prompter ?

Il n'y a pas de méthode absolue !

Choisir le bon modèle/service pour sa tâche

Avant de commencer

Benchmark de performance

Taille du modèle

Inspecter les conditions d'utilisations

Quelques conseils 

Utiliser L'IA

Agentique

In programme capable d'interagir avec son environnement, utiliser des données, pour accomplir des  tâches

Tour d'horizon d'agents 

Quelques exemples

Falcon

Llama 3

Le chat Mistral

IA fermées

IA open source

...

AllenAI

code

desktop

Notebook LM

Les sites de benchmark

Ils mesurent des indicateurs sur différents aspects des modèles d'IA

Performance

Consommation d'énergie

Toujours évaluer les IAs par des métriques !

Générique

Spécialisés

Aspects 

Ethiques

Limitations

L'IA générative se base sur le machine learning

L'IA générative n'est pas la solution à tout !

elle peut se tromper

présente des biais

son empreinte totale est non négligeable

L'IA générative se base sur le machine learning

L'IA générative fait des erreurs

 les hallucinations

Donner des informations incorrectes

Inventer une source qui n'existe pas

Donner une réponse incorrecte a un problème

Exemple :  l'IA générative n'est pas bonne pour les jeux

Le chat joue un coup interdit !

Limitations du machine learning

La qualité des données conditionne celle du modèle

Ces modèles sont statistiques par nature !

Les réseaux de neurones sont des boites noire : 

manque d'interprétabilité

Les gros modèles nécessitent d'importante puissance computationnelle

Possible dépendance à des fournisseurs (cloud) souvent peu éthiques

Les biais sont presents dans tout le cycle de vie !

from kaggle

Bias

Biais dûs au design

L'apprentissage par renforcement (RLHF) encourage les réponses qui s'accordent avec les croyances de l'utilisateur (plutôt que la vérité)

image reseau neuroneCreated by Mohamed Mbfrom the Noun Project

prompt

réponse

feedback

RLHF

Stockage

IoT

Empreinte écologique

Calcul algorithmiques

Big Data

Data centers

Entrainement des IA

internet : appels aux APIs

Réseaux

5G

ordinateurs

téléphones

Equipements

Une grande quantité de donnée !

tendeance à  5 à 8 %  de l'empreinte mondiale !

serveurs

Inférence (utilisation)

Données générées

ecrans

Empreinte écologique

Pour l'entrainement Large Langage Models

370 BMW

Consommation annuelle du Danemark !

L'usage massif de l'IA génerative

coût pour GPT-3 : des millions de $

120 foyers américains pendant 1 an

L'usage massif de l'IA génerative

Empreinte écologique

L'essentiel de l'empreinte vient de l'usage !

Interagir avec 25 prompts

0.5 L

Data & IA responsable

Interprétabilité

Transparence

Frugalité

Equité

Investiguer les biais (données & modèles)

Respecter la vie privée

Connaître les impacts sur les utilisateurs

 éviter les boites noires

Minimiser l'empreinte ecologique :

à l'entraînement

Favoriser l'ouverture : 

Données d'entraînement, modèles, code

Comprendre les décisions des modèles

à l'usage

Aspects 

Réglementaires

Règlements

en application depuis mai 2018 !

Des régulations se développent également par pays

les systèmes d'IA sont classifiés suivant 4 niveaux de risques pour les utilisateurs

En application cette année !

Inacceptable

Elevé

Limité

Minimal

IAs considérée comme une menace pour les personnes

impact négatif limité sur la vie des personnes

8 domaines sensibles identifés

Certaines applications de l'IA gen

IA qui devront satifsfaire à des exigences de transparence

devront être enregistrée sur le portail de l'UE

services en ligne, assistant vocaux, etc ...

IA de jeux vidéos, anti-spam, ...

manipulation sociale

classement social

AI Act : 4 niveaux de risques

pas d'impact significatif sur les persionne

Certifications

Des normes pour choisir vos outils ou garantir la qualité de services utilisant l'IA

Ethique

Environnemental

Sécurité

Manifestes

Depuis Novembre 2017

Chartes & labels

Il existe de nombreuses chartes et principes hétérogènes mais je recommande l'approche de LabelIA

Vers une IA

souveraine & responsable

Vers la souveraineté ?

Auto hébergement

Software as a Service

Prêt à l'emploi 

Préocupations éthiques 

Personnalisation limitée

Nécessité de construire une infrastructure

Maintenance : partielle ou totale

Pas de  maintenance

Meilleur controle de vos données

Open source & Open data permettant la personnalisation

Utiliser une IA prêt a l'emploi

ou

Une IA ouverte déployée par un tiers

...

Fournisseurs européens

Un service d'IA pré déployée par un fournisseur

...

5.L'intégrer dans votre logiciel

2. Choisir un modèle ouvert

Mettre en place sa propre IA

4. Ré-entrainer le modèle

3. Le déployer dans une infrastructure 

1. Identifier un cas d'usage

4. Spécialiser un modèle

avec des données spécifiques

Bases de données

Machine de calcul

API

Les technologies évoluent vers plus de facilitation de mise en place

Faites appel a un.e expert.e ! 

IA souveraine et de confiance

Les questions à se poser

Quelles garanties de sécurité sont mises en place ?

Quelles données sont utilisées ?

Ou sont elle hébergées ?

Les recommandations

Services européens

Pas de données brutes ni d'interaction

Pour quel usage ?

Uniquement ceux nécessaires 

Certifications & normes ?

Souveraineté + protection

Les failles de sécurité des IAs

L'exfiltration de données

Les IAs qui tiennent des propos dangereux

Les agents IA qui peuvent faire des actions nuisibles

...

Des gardes fous

Faire des audits de sécurité

Filtrer les réponses

Mettre en place une charte d'utilisation

Etapes pour le déploiement 

Collecte de données

Structuration de données

Transformations de donnée

Exploration de donnnées

Modèlisation

Entraaînement

Pipelines & automatisations

Documentation

Inférence

Fine tuning

specialisation

Déploiement

Gouvernance

Mutualisation

Déployer l'IA : tout un parcours !

Propose un méthode pour implémenter l'IA responsable dans les organisations

Collecte de 

données

Différents types de données

...

IMAGES

LANGUAGE

SERIES DE NOMBRES

SONS

METIERS

photos

voix

bruits

avis

commentaires

conversations

météo

capteurs

meta données

site web

applications

logiciels

tweets

ventes

stock

logistique

vidéos

Réseaux sociaux

amis

partages

likes

abonnements

musique

forums

META DONNEES

Méthodes d'acquisition

Open Data

API

Application Programming Intefrace

Parsing de documents

Web scrapping

accessible et téléchargeables publiquement

Extraction de données à partir de documents structurés ou non

Requêtes à un service pour automatiser l'extraction

Stocker et stucturer

Local

Dossiers/Disques partagé

 

Bases de données

Big Data

Volume

Variété

Cas d'usages &

outils

Collecte de données

Résaux sociaux

(API ou scraping)

...

Traitement du langage naturel (TALN)

Clustering d'articles

Veille et revue de littérature

Extraction d'information

Résumé

Classification de documents

OCR

Fouille de données

Analyse de données

Visualisation exploratoire

Analyse de tendances

Langage parlé

Transcription automatique

Reconnaissance du locuteur

Veille & Recherche

L'assistant de recherche personnalisé de Google

Chatbot / Agents IA souverains

Complétement ouvert : data, model, code !

Trouve des informations

Analyse des données

Résume

Agents IA pour la production scientifique

Agents IA pour la production scientifique

...

Analyse de réseaux & TALN

Analyse de réseaux sociaux

Graphes de diffusion

Détection de communautés

Analyse de la désinformation

Analyse de sentiments

Analyse de discours & morphologique

Extraction de thèmes

Segmentation

Analyse sémantique

Extraction de terminologies

Extraction d'entitées nommées

Extraction de relations

Distribution de la sémantique

...

Quelques outils 

Modèles & librairies python

Grands Modèles de Langages

...

Vision par ordinateur

Analyse d'image/vidéo

Segmentation 

Détection d'objets 

Génération/retouche

IA génératives de sons

Générer du son à partir d'un prompt

... 

Plateforme d'IA vocale

multifonction & multi langue

IA génératives de sons

Générer de la musique

... 

Dans la plupart des plateformes musicales

Des plateformes multimodales

Combinent des outils de traitement du texte, de l'image et de la vidéo

Une multitude de plateformes d'agents IA

un système informatique autonome qui interagit avec son environnement pour accomplir des objectifs spécifiques.

Généralistes

Orientée métier

Pour les développeurs

...

Automatisation

Connecte des logiciels & agents IAs pour créer des chaîne de traitements automatisés

Produire des IAs / agents IA

Des infrastructures informatiques indispensables

...

Entraîner des modèles d'IA

Stocker et organiser les données

Déployer des IA

Gérer le code

Dans le cloud

Sur vos machines

Atelier

A vous de jouer ! 

0. Constituez des groupes

Construisez collectivement votre feuille de route pour la mise en place d'outils data/IA

1. Faites l'inventaire de vos besoins

2. Réfléchissez aux outils et infrastructures à déployer

(collecte de données, hébergement des modèles)

3.Partagez vos conclusions

Departement / Community

Individus / groupe / laboratoire

Merci de votre attention

Workshop data & IA responsable

By Nicolas Rochet

Workshop data & IA responsable

Tour d'horizon des outils utilsant l'IA

  • 54