Gestion de projet en data science & IA

Nicolas Rochet
Décembre 2025

Qui suis je ?

Data for Good

Senior data scientist

Déroulement

Introduction à l'IA

Cas d'usages & outils par spécialités

Challenges

Présentations

 J1

 J1 pm

 J2

Les étapes classiques d'un projet data

Deux approches

Fouille de données

Analyses dirigées

Extraire des connaissances

à partir d'un vaste ensemble de données

Les données & méthodes d'analyses sont choisies en fonction du problème

V

S

Les étapes d'un projet data

Déployer &

mettre en production

Structurer les données

Principes d'éthiques

Etude du besoin

Auditer les données

Veille scientifique et technique

Implémenter

algorithmes & modèles

Packaging du code

Livraison

Rapport

Communiquer

Procesus de traitement

Collecte de données

Préparation de donnes

Traitement
des données

Déploiement

Exploration des données

Modelisation

Identification de pattern

Besoin

Problème à résoudre

Réalité

Communication

Visualisation

Rapport

produit/service

Prise de décisions

données

nettoyées

Algorithmes

Le cycle de vie d'un logiciel

 Adopter les principes d'ethic-by-design !

idée

definition

du

projet

Preuve

de

Concept

développement & déploiement

retours

utilisateur

veille éthique

Intégration & Déploiement continu (CI/CD)

Organisez votre

environnement de

développement

Infrastructure de calcul

Auto-hébergement

Service pré-déployés

Meilleur contrôle des données

Plus de souveraineté

Nécessite plus de compétences

Nécessité d'assurer la maintenance & scalabilité

Nécessité de gérer la cyber sécurité

Meilleure maitrise des coûts

Moins de contrôle sur les aspects éthiques

Facturation au service couteuse sur le long terme

Nécessite peu de compétences

Bonne scalabilité

Certains aspects pris en charge

Développement

1. Installer votre l'écosystème python

COMPOSANTS

Python récent + paquets classiques en data science

Environnement de développement intégré (IDE)

Gestionnaire de paquets

Environnement vitrtuel

IA pour l'assistance au code ?

Dépot Git

Python et librairies

Paquets classiques en data science

numpy & pandas

scikit learn

stats model

matplotlib

seaborn

plotly

...

Installez les librairies additionnelles au fur et a mesure

pip install <paquet>
conda install <paquet>

IDE

Votre environnement pour produire du code

...

Jupyter lab

Visual Studio Code

PyCharm

Gestionnaire de paquet

Sert à gérer vos paquets :

Installation

mise à jour

gestion des dépendances

suppression

...

Quelques outils

pip

Installation

conda

pipx

poetry

...

Environnement virtuel

Sert à l'isolation du code de votre projet

garantit que vous utilisez uniquement les versions ciblés des paquets

facilite le partage des paquets aux mêmes versions

facilite la gestion de tous vos projets

Quelques outils

conda

virtualenv

...

Dépot Git (versionning)

Sert à versionner votre code et collaborer 

Créez un dépot local

Invitez vos collaborateurs

Initialisez votre projet par un template

...

Créez un dépot distant

Poussez votre 1er commit !

Chaque collaborateur le récupère en local 

Iterez !

Bonnes pratiques (minimales)

Chaque développeur crée une branche par tache

... pousse et demande la revue et la fusion

... développe du code et enregistre des commit

Le code fonctionnel est ajouté à la branche principale

Les assistants IA de code

De nombreux services proposent en proposent

Auto complétion

Génération de code

Debug & revue de code

Donner le bon contexte

Itérer pour avoir des prompts efficaces

Ecrire des commentaires

Créer un nouveau chat pour

chaque feature

Les outils les mieux classés sur SWE-bench !

devstral

...

2. Créer une arborescence pour votre projet

But

Donner une structure à votre projet

Intégrer les fichiers utiles : templates, fichier de configuration

Conseil

Exemple de structure de code

C'est à vous de la penser : ne déléguez pas cette partie à l'IA !

Conseil

Générez un template

Architecture des dossiers

Installer les librairies

Fichiers de configuration

Fichier de Todo

Peuplez les scripts de commentaires

Définir les tests

Mettez en place

la gestion de

projet

3.1 Détaillez toutes les tâches

Chef de projet

Data Analyst

Data Scientist

Data Ingénieur

Planifiez et préparez le suivi de projet

Collectez & explorez vos données

Mettez en place une pipeline de préparation de données

Mettez en place une pipeline de modélisation

Evaluez & discutez vos résultats

Découpez votre projet de tâches élémentaires parmi les étapes :

Réitérez !

3.2 Anticipez l'output final 

Notebook / rapport

Déploiement ?

Outil ? 

Dash board

Application

?

?

?

Local ? En ligne ?

Qualité du rendu ?

Quelle interface graphique ?

Quel backend ?

Traitements

Modelisation

Code

4. Organisez votre code

Commencez par des notebooks d'exploration

Enregistrez l'historique de vos itérations

Reformatez chaque brique reproductible en fonction ou classe !

Modularisez votre code

Un notebook par thématique

Discutez des résultats 

Créer une pipline automatisable 

CODE

MODELES

TRAITEMENTS

METRIQUES

5. Rendez votre code résilient

Mettez en place une chaîne de CI/CD

Pull request / merge request

Faites la revue de code

Codez des tests unitaires

Mettez en place d'autres actions automatiques

l'IA est plutot bonne pour ça !

Vérification de la qualité du code

Agent IA ?

l'IA peut vous assister

Pylint

6. Packagez votre code

Organisez votre projet comme un package python

Utilisez des conteneurs

Rendez votre projet déployable

L'automatisation

systèmes informatique autonome qui interagit avec son environnement pour accomplir des objectifs spécifiques.

Généralistes

...

Pipeline de CI/CD

Pour les développeurs

Plateformes d'agents IA

IA générative ?

Depuis quelques années les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes

Des images/vidéo

vidéos

dessins

illustrations

photo realistes

...

Du texte

Code

paragraphes

questions / réponses

Listes

résumés

...

Les Large Language Models (LLM)

Des sons

voix

musique

...

assistant vocaux

Posts

'Raisonnement'

IA générative ?

Depuis quelques années les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes

Des images/vidéo

vidéos

dessins

illustrations

photo realistes

...

Du texte

Code

paragraphes

questions / réponses

Listes

résumés

...

Les Large Language Models (LLM)

Des sons

voix

musique

...

assistant vocaux

Posts

'Raisonnement'

De très gros réseaux de neurones

Entrainés très longuement sur des jeux de données gigantesques ...

... à prédire chaque prochain token d'un texte

Exemple simplifié de la génération de texte

Conception & Entraînement

"L'apprentissage automatique est une branche de l'IA

 Bonnes capacités de généralisation

image reseau neuroneCreated by Mohamed Mbfrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

Mais pas pour tous les problèmes !

Le réseau entrainé a appris des représentations généralisables

Exemple simplifié de la génération de texte

Inférence

Génération de texte token par token

Ré-entrainement sur des données spécifiques

Sélectionner un ensemble de documents à donner en contexte

Noun_Project_50Icon_10px_grid Created by Yana Sapeginafrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

fine tuning

 En tant qu'expert de la data science programmant en python ...

contexte : prompt

Retrieval Augmented Generation (RAG)

+

Différentes "tailles" de modèles

On rencontre souvent 3 tailles

Petit

Moyen

Grand

1.5b - 5b

> 100b

10b - 15b

Capacités croissante

Pages des modèles de Hugging Face

Les capacités des IAs génératives

Aspects 

Ethiques

Stockage

IoT

Empreinte écologique

Calcul algorithmiques

Big Data

Data centers

Entrainement des IA

internet : appels aux APIs

Réseaux

5G

ordinateurs

téléphones

Equipements

Une grande quantité de donnée !

environ 3 à 4 %  de l'empreinte mondiale ! et cela va augmenter

serveurs

Inférence (utilisation)

Données générées

ecrans

Empreinte écologique

Pour l'entrainement Large Langage Models

370 BMW

Consommation annuelle du Danemark !

L'usage massif de l'IA génerative

coût pour GPT-3 : des millions de $

120 foyers américains pendant 1 an

L'usage massif de l'IA génerative

Empreinte écologique

L'essentiel de l'empreinte vient de l'usage !

Interagir avec 25 prompts

0.5 L

Aspects 

Réglementaires

Règlements

en application depuis mai 2018 !

Des régulations se développent également par pays

les systèmes d'IA sont classifiés suivant 4 niveaux de risques pour les utilisateurs

applicable in 2025

Inacceptable

Elevé

Limité

Minimal

IAs considérée comme une menace pour les personnes

impact négatif limité sur la vie des personnes

8 domaines sensibles identifés

Certaines applications de l'IA gen

IA qui devront satifsfaire à des exigences de transparence

devront être enregistrée sur le portail de l'UE

services en ligne, assistant vocaux, etc ...

IA de jeux vidéos, anti-spam, ...

manipulation sociale

classement social

AI Act : 4 niveaux de risques

pas d'impact significatif sur les persionne

Collecter des données

Pour entraîner ou spécialiser vos modèles

...

...

...

Open data

+ data sets thématiques

Données fermées

Documents d'entreprises

services payants

Campagne de collecte

data brokers

Attention à la qualité et la représentativité des données !

Développer une chaîne de traitement

Code

No code/low code

RapidMiner

Plateformes IA/Data

...

Monitorer son application

Mettre en place des outils pour suivre l'évolution tout au long du cycle de vie

Mesurer des métriques pour suivre la performance

Mesurer des métriques pour suivre les biais

Gérer les différentes versions des pipelines

...

Infrastructure

Infrastructures de stockage

Data warehouse

Data lake

Data Mesh

Big Data

SQL

NoSQL

Graphe

Vecteur

TimeSeries

Insfrastructure de calcul

Différentes stratégies possibles

Local / autohebergé

Modeles

+ machine calcul

+ API

+ serveur

Exemple déploiement LLMs

...

Un service d'IA prédéployé

Une IA ouverte

ou

+ API

Un hébergeur (modèle)

+

...

Intégrez une fonctionnalité IA dans votre logiciel

+

Serveur de calcul 

Un hébergeur 'classique'

ou

Votre rôle

Mettre en place la structure du code

Assurer l'intégration et le déploiement continu

Produire le code (backend, front end)

Contribuer à la maintenance et mise à jour

A vous de jouer ;)

Made with Slides.com