Workshop data & IA responsable

9 Avril 2026

Nicolas Rochet

Qui suis je ?

Data for Good

Senior data scientist

Activité participative

Datascience, IA & vous

Connectez vous pour participer :

https://app.wooclap.com/ABRPLX

Introduction

Démystification

&

Définition résumée

Mathématiques

Informatique

"Domain

knowledge"

Discipline utilisant des méthodes scientifiques, algorithmes et systèmes d'information pour extraire des connaissances à partir de données structurées ou non structurées

Science de l'information

IA: Une définition simplifiée

Ensemble de théories et techniques qui confèrent à des machines la capacité d'accomplir des tâches attribuées aux être intelligents

Une brève histoire de l'IA

>2011

93-2011

87-93

80-87

74-80

56-74

Naissance

de l'IA

1er hiver

L'age d'or

2e age d'or

2e hiver

maturité

discrète

Essor du

Deep Learning

>2019

Explosion
IA gen

Disciplines de l'IA

IA GENERALE

Systèmes Experts

RAISONNEMENT

REPRESENTATION DES CONNAISSANCES

Planification

NEURO SYMBOLIQUE

Apprentissage profond

APPRENTISSAGE AUTOMATIQUE

INTELLIGENCE SOCIALE

Modèles Génératifs

LLMs

VLMs

SYSTEMES MULTI AGENTS

Prise de décision

Apprentissage par renforcement

ROBOTIQUE

VISION PAR ORDINATEUR

TRAITEMENT DU LANGAGE

RESOLUTION DE PROBLEMES

Quelques domaines d'applications

Traitement de
l'image et du son

Traitement

langage naturel

Systèmes de

recommandation

Systèmes

prédictifs

Aide à la

décision

Robotique

Optimisation

& planification

Les disciplines phares de l'IA

Quelques domaines métiers

INDUSTRIE

FINANCE

COMMERCE

MEDECINE

ARTISTIQUE

MEDIA

TRANSPORT

...

Maintenance

prédictive

Robots

Gestion de flux

Scoring de crédit

Détection de fraude

Trading automatique

Marketing prédictif

Analyse de sentiment

Découverte de traitements

Prédictions de succès ou récidive

Anticipation de pannes

Robots cuisiniers

Robots

Design génératif

Synthèse de sons

Synthèse d'image

Gestion de ressources

Aide au diagnostic

Véhicules autonomes

Résumé automatique

Génération de contenu

Recommandation de produits

Recommandation de

contenus

légendage

Assistance à la veille

Chat GPT n'est pas l'IA générative !

l'IA générative n'est pas l'IA !

IA générative

deep learning

machine learning

Démystifions l'IA

Chat GPT n'est pas l'IA générative !

2017

2020

2019

2018

CoVE

BERT

ELMo

CVT

ULMFiT

GPT

CamenBERT

FlauBERT

ALBERT

RoBERTa

GPT-3

ELECTRA

XLNet

BART

GPT-4

Bard

> 2023

...

LLama 3

Il existe d'autres types d'IAs

que celle basée sur le machine learning !

L'algorithme du plus court chemin :
à la base du GPS

Un algorithme de système expert

Exemple : les LLMs ne sont pas bon pour les jeux

Voir le blog de Julien Song

Le chat joue un coup interdit !

ChatGPT perd une partie contre un vieux atari de 1977

Voir le post de Robert Caruso

Du machine Learning

aux

modèles génératifs

Zoom sur le Machine Learning

Supervisé

...

Auto supervisé

Non supervisé

Semi Supervisé

Apprentissage par renforcement

"machine learning is the most popular domain of AI

data

label

Une partie seulement des données sont labelisées

... vers le deep learning

Transformers

...

+

Large Langage Models (LLM)

Vision Transformers (ViT)

Architecture reprise dans différents types de modèles

Modèles de raisonnement

Modèles multimodaux

...

IA générative : la génèse

Depuis l'année 2018 les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes

Des images/vidéo

vidéos

dessins

illustrations

photo realistes

...

Du texte

Code

paragraphes

questions / réponses

Listes

résumés

...

Les Large Language Models (LLM)

Des sons

voix

musique

...

assistant vocaux

Posts

IA générative ?

L'architecture des Transformers

Générer/modifier des images

Architecture reprise dans différents types de modèles

Des capacités qui permettent de réaliser des tâches de plus en plus complexes

Extraction d'information

Résumer des infomations

Retranscrire du texte

Décrire une image

Produire un raisonnement

Résoudre des problèmes mathématiques

Coder des logiciels

...

...

Les capacités des IAs génératives

Des capacités croissantes qui permettent de réaliser des tâches de plus en plus complexes

Différentes "tailles" de modèles

On rencontre souvent 3 tailles

Petit

Moyen

Grand

1.5b - 5b

> 100b

10b - 15b

Capacités croissante

Pages des modèles de Hugging Face

Comment cela fonctionne ?

De très gros réseaux de neurones

Entrainés très longuement sur des jeux de données gigantesques ...

... à prédire chaque prochain token d'un texte

Exemple simplifié de la génération de texte

Conception & Entraînement

"L'apprentissage automatique est une branche de l'IA

Bonnes capacités de généralisation

Mais pas pour tous les problèmes !

Le réseau entrainé a appris des représentations généralisables

Exemple simplifié de la génération de texte

Inférence

Génération de texte token par token

Ré-entrainement sur des données spécifiques

Sélectionner un ensemble de documents à donner en contexte

fine tuning

En tant qu'expert de la data science programmant en python ...

contexte : prompt

Retrieval Augmented Generation (RAG)

+

De très gros réseaux de neurones pré-entrainés capables d'être utilisés pour différentes tâches

Les modèles de fondation

On leur ajoute quelques composants

Un prompt système

Des gardes fous et protections

Un entraînement supplémentaire : apprentissage par renforcement à partir de feedback humain (RLHF)

Ils sont à la base de pleins d'applications connues

Chatbot

IA pour l'image/vidéo

IA pour le raisonnement

...

La chaîne de pensée (CoT)

Articuler une succession d’étapes de raisonnement, pour mieux orienter le modèle dans la génération de réponses

La chaîne de pensée (CoT)

Résoudre un problème de maths

Réaliser de la veille

A la base de nombreux modèles de raisonnement aujourd'hui !

DeepSeek

GPT 4o

Claude Sonnet

...

Utile pour certaines tâches:

Comment bien prompter ?

Il n'y a pas de méthode absolue !

Choisir le bon modèle/service pour sa tâche

Avant de commencer

Benchmark de performance

Taille du modèle

Inspecter les conditions d'utilisations

Quelques conseils

Utiliser L'IA

Agentique

In programme capable d'interagir avec son environnement, utiliser des données, pour accomplir des tâches

Tour d'horizon d'agents

Quelques exemples

Falcon

Llama 3

Le chat Mistral

IA fermées

IA open source

...

AllenAI

code

desktop

Notebook LM

Les sites de benchmark

Ils mesurent des indicateurs sur différents aspects des modèles d'IA

Performance

l marena.ai

Consommation d'énergie

Toujours évaluer les IAs par des métriques !

evidently.ai

Big Benchmark collection

Générique

Spécialisés

Aspects

Ethiques

Limitations

L'IA générative se base sur le machine learning

L'IA générative n'est pas la solution à tout !

elle peut se tromper

présente des biais

son empreinte totale est non négligeable

L'IA générative se base sur le machine learning

L'IA générative fait des erreurs

les hallucinations

Donner des informations incorrectes

Inventer une source qui n'existe pas

Donner une réponse incorrecte a un problème

Exemple : l'IA générative n'est pas bonne pour les jeux

Voir le blog de Julien Song

Le chat joue un coup interdit !

ChatGPT perd une partie contre un vieux atari de 1977

Voir le post de Robert Caruso

Limitations du machine learning

La qualité des données conditionne celle du modèle

Ces modèles sont statistiques par nature !

Les réseaux de neurones sont des boites noire :

manque d'interprétabilité

Les gros modèles nécessitent d'importante puissance computationnelle

Possible dépendance à des fournisseurs (cloud) souvent peu éthiques

Les biais sont presents dans tout le cycle de vie !

from kaggle

Bias

Biais dûs au design

L'apprentissage par renforcement (RLHF) encourage les réponses qui s'accordent avec les croyances de l'utilisateur (plutôt que la vérité)

prompt

réponse

feedback

RLHF

Stockage

IoT

Empreinte écologique

Calcul algorithmiques

Big Data

Data centers

Entrainement des IA

internet : appels aux APIs

Réseaux

ordinateurs

téléphones

Equipements

Une grande quantité de donnée !

tendeance à 5 à 8 % de l'empreinte mondiale !

serveurs

Inférence (utilisation)

Données générées

ecrans

Empreinte écologique

Pour l'entrainement Large Langage Models

coût pour GPT-3 : 700 kL d'eau

370 BMW

Estimation du besoin global :

4.2 6.6 ML d'eau

Consommation annuelle du Danemark !

L'usage massif de l'IA génerative

coût pour GPT-3 : des millions de $

120 foyers américains pendant 1 an

L'usage massif de l'IA génerative

Empreinte écologique

L'essentiel de l'empreinte vient de l'usage !

Interagir avec 25 prompts

0.5 L

Data & IA responsable

Interprétabilité

Transparence

Frugalité

Equité

Investiguer les biais (données & modèles)

Respecter la vie privée

Connaître les impacts sur les utilisateurs

éviter les boites noires

Minimiser l'empreinte ecologique :

à l'entraînement

Favoriser l'ouverture :

Données d'entraînement, modèles, code

Comprendre les décisions des modèles

à l'usage

Aspects

Réglementaires

Règlements

General Data Protection Regulation (GDPR)

en application depuis mai 2018 !

AI ACT

Des régulations se développent également par pays

les systèmes d'IA sont classifiés suivant 4 niveaux de risques pour les utilisateurs

En application cette année !

Inacceptable

Elevé

Limité

Minimal

IAs considérée comme une menace pour les personnes

impact négatif limité sur la vie des personnes

8 domaines sensibles identifés

Certaines applications de l'IA gen

IA qui devront satifsfaire à des exigences de transparence

devront être enregistrée sur le portail de l'UE

services en ligne, assistant vocaux, etc ...

IA de jeux vidéos, anti-spam, ...

manipulation sociale

classement social

AI Act : 4 niveaux de risques

pas d'impact significatif sur les persionne

Certifications

ISO 14001 : atteste de la performance environnementale

ISO 27001 : atteste de l'efficacité de sécurité du système de management de l'information

ISO 42001 : atteste d'un système de gestion de l'IA éthique

Des normes pour choisir vos outils ou garantir la qualité de services utilisant l'IA

Ethique

Environnemental

Sécurité

Manifestes

Déclaration de Montreal pour une IA responsable

Depuis Novembre 2017

Chartes & labels

Il existe de nombreuses chartes et principes hétérogènes mais je recommande l'approche de LabelIA

Vers une IA

souveraine & responsable

Vers la souveraineté ?

Auto hébergement

Software as a Service

Prêt à l'emploi

Préocupations éthiques

Personnalisation limitée

Nécessité de construire une infrastructure

Maintenance : partielle ou totale

Pas de maintenance

Meilleur controle de vos données

Open source & Open data permettant la personnalisation

Utiliser une IA prêt a l'emploi

Une IA ouverte déployée par un tiers

...

Fournisseurs européens

Un service d'IA pré déployée par un fournisseur

...

5.L'intégrer dans votre logiciel

2. Choisir un modèle ouvert

Mettre en place sa propre IA

4. Ré-entrainer le modèle

3. Le déployer dans une infrastructure

1. Identifier un cas d'usage

4. Spécialiser un modèle

avec des données spécifiques

Bases de données

Machine de calcul

API

Les technologies évoluent vers plus de facilitation de mise en place

Faites appel a un.e expert.e !

IA souveraine et de confiance

Les questions à se poser

Quelles garanties de sécurité sont mises en place ?

Quelles données sont utilisées ?

Ou sont elle hébergées ?

Les recommandations

Services européens

Pas de données brutes ni d'interaction

Pour quel usage ?

Uniquement ceux nécessaires

Certifications & normes ?

Souveraineté + protection

Les failles de sécurité des IAs

L'exfiltration de données

Les IAs qui tiennent des propos dangereux

Les agents IA qui peuvent faire des actions nuisibles

...

Des gardes fous

Faire des audits de sécurité

Filtrer les réponses

Mettre en place une charte d'utilisation

Etapes pour le déploiement

Collecte de données

Structuration de données

Transformations de donnée

Exploration de donnnées

Modèlisation

Entraaînement

Pipelines & automatisations

Documentation

Inférence

Fine tuning

specialisation

Déploiement

Gouvernance

Mutualisation

Déployer l'IA : tout un parcours !

Propose un méthode pour implémenter l'IA responsable dans les organisations

Collecte de

données

Différents types de données

...

IMAGES

LANGUAGE

SERIES DE NOMBRES

SONS

METIERS

photos

voix

bruits

avis

commentaires

conversations

météo

capteurs

meta données

site web

applications

logiciels

tweets

ventes

stock

logistique

vidéos

Réseaux sociaux

amis

partages

likes

abonnements

musique

forums

META DONNEES

Méthodes d'acquisition

Open Data

API

Application Programming Intefrace

Parsing de documents

Web scrapping

accessible et téléchargeables publiquement

Extraction de données à partir de documents structurés ou non

Requêtes à un service pour automatiser l'extraction

Ex : datagouv.fr

Stocker et stucturer

Local

Dossiers/Disques partagé

Bases de données

Big Data

Volume

Variété

Cas d'usages &

outils

Collecte de données

Data set ouverts

Plateformes

Résaux sociaux

(API ou scraping)

Mastodon

Bluesky

...

Web crawling & scraping

...

Traitement du langage naturel (TALN)

Clustering d'articles

Veille et revue de littérature

Extraction d'information

Résumé

Classification de documents

OCR

Fouille de données

Analyse de données

Visualisation exploratoire

Analyse de tendances

Langage parlé

Transcription automatique

Reconnaissance du locuteur

Veille & Recherche

L'assistant de recherche personnalisé de Google

Démo

Chatbot / Agents IA souverains

Un assistant qui combine compréhension de la littérature et des capacités de découverte "data driven"

Complétement ouvert : data, model, code !

Trouve des informations

Analyse des données

Résume

Développé et déployé par MistralAI

Agent laboratory : des idées au rapport

Agents IA pour la production scientifique

...

Analyse de réseaux & TALN

Analyse de réseaux sociaux

Graphes de diffusion

Détection de communautés

Analyse de la désinformation

Analyse de sentiments

Analyse de discours & morphologique

Extraction de thèmes

Segmentation

Analyse sémantique

Extraction de terminologies

Extraction d'entitées nommées

Extraction de relations

Distribution de la sémantique

...

Quelques outils

Hugging face

Modèles & librairies python

Network X

BertTopic

Grands Modèles de Langages

Voyant Tools

Iramuteq

Interface graphique

...

Vision par ordinateur

Analyse d'image/vidéo

Segmentation

Détection d'objets

Génération/retouche

Ex : Nano banana 2

Ex: SAM

Ex : détection de visage

IA génératives de sons

stableaudio.com

Générer du son à partir d'un prompt

...

e levenlabs.io

Plateforme d'IA vocale

multifonction & multi langue

la plateforme francaise

Gladia.io

IA génératives de sons

Générer de la musique

...

Suno

Dans la plupart des plateformes musicales

Des plateformes multimodales

...

Galaxy.ai

Recraft.ai

Combinent des outils de traitement du texte, de l'image et de la vidéo

Mammouth.ai

Fireworks.ai

Une multitude de plateformes d'agents IA

un système informatique autonome qui interagit avec son environnement pour accomplir des objectifs spécifiques.

Généralistes

Orientée métier

Pour les développeurs

Google Vertex.ai

Microsoft autogen

...

Automatisation

Connecte des logiciels & agents IAs pour créer des chaîne de traitements automatisés

Produire des IAs / agents IA

Des infrastructures informatiques indispensables

...

Entraîner des modèles d'IA

Stocker et organiser les données

Déployer des IA

Gérer le code

Dans le cloud

Sur vos machines

Ollama

Microsoft Azure AI studio

Amazon AI Services

Google Cloud AI

Atelier

A vous de jouer !

0. Constituez des groupes

Construisez collectivement votre feuille de route pour la mise en place d'outils data/IA

1. Faites l'inventaire de vos besoins

2. Réfléchissez aux outils et infrastructures à déployer

(collecte de données, hébergement des modèles)

3.Partagez vos conclusions

Departement / Community

Individus / groupe / laboratoire