Réaliser un data story telling

Nicolas Rochet
Janvier 2025

Qui suis je ?

Data for Good

Senior data scientist

Les étapes classiques d'un projet data

Deux approches

Fouille de données

Analyses dirigées

Extraire des connaissances

à partir d'un vaste ensemble de données

Les données & méthodes d'analyses sont choisies en fonction du problème

V

S

Les étapes d'un projet data

Déployer &

mettre en production

Structurer les données

Principes d'éthiques

Etude du besoin

Auditer les données

Veille scientifique et technique

Implémenter

algorithmes & modèles

Packaging du code

Livraison

Rapport

Communiquer

Procesus de traitement

Collecte de données

Préparation de donnes

Traitement
des données

Déploiement

Exploration des données

Modelisation

Identification de pattern

Besoin

Problème à résoudre

Réalité

Communication

Visualisation

Rapport

produit/service

Prise de décisions

données

nettoyées

Algorithmes

1. Installer votre l'écosystème python

COMPOSANTS

Python récent + paquets classiques en data science

Environnement de développement intégré (IDE)

Gestionnaire de paquets

Environnement vitrtuel

IA pour l'assistance au code ?

Dépot Git

Python et librairies

Paquets classiques en data science

numpy & pandas

scikit learn

stats model

matplotlib

seaborn

plotly

...

Installez les librairies additionnelles au fur et a mesure

pip install <paquet>
conda install <paquet>

IDE

Votre environnement pour produire du code

...

Jupyter lab

Visual Studio Code

PyCharm

Gestionnaire de paquet

Sert à gérer vos paquets :

Installation

mise à jour

gestion des dépendances

suppression

...

Quelques outils

pip

Installation

conda

pipx

poetry

...

Environnement virtuel

Sert à l'isolation du code de votre projet

garantit que vous utilisez uniquement les versions ciblés des paquets

facilite le partage des paquets aux mêmes versions

facilite la gestion de tous vos projets

Quelques outils

conda

virtualenv

...

Dépot Git (versionning)

Sert à versionner votre code et collaborer 

Créez un dépot local

Invitez vos collaborateurs

Initialisez votre projet par un template

...

Créez un dépot distant

Poussez votre 1er commit !

Chaque collaborateur le récupère en local 

Iterez !

Bonnes pratiques (minimales)

Chaque développeur crée une branche par tache

... pousse et demande la revue et la fusion

... développe du code et enregistre des commit

Le code fonctionnel est ajouté à la branche principale

Les assistants IA de code

De nombreux services proposent en proposent

Auto complétion

Génération de code

Debug & revue de code

Donner le bon contexte

Itérer pour avoir des prompts efficaces

Ecrire des commentaires

Créer un nouveau chat pour

chaque feature

Les outils les mieux classés sur SWE-bench !

devstral

...

2. Créer une arborescence pour votre projet

But

Donner une structure à votre projet

Intégrer les fichiers utiles : templates, fichier de configuration

Conseil

Exemple de structure de code

C'est à vous de la penser : ne déléguez pas cette partie à l'IA !

Conseil

Générez un template

Architecture des dossiers

Installer les librairies

Fichiers de configuration

Fichier de Todo

Peuplez les scripts de commentaires

Définir les tests

Mettez en place

la gestion de

projet

3.1 Détaillez toutes les tâches

Chef de projet

Data Analyst

Data Scientist

Data Ingénieur

Planifiez et préparez le suivi de projet

Collectez & explorez vos données

Mettez en place une pipeline de préparation de données

Mettez en place une pipeline de modélisation

Evaluez & discutez vos résultats

Découpez votre projet de tâches élémentaires parmi les étapes :

Réitérez !

3.2 Anticipez l'output final 

Notebook / rapport

Déploiement ?

Outil ? 

Dash board

Application

?

?

?

Local ? En ligne ?

Qualité du rendu ?

Quelle interface graphique ?

Quel backend ?

Etape 1 :

Sourcer et

résumer 

vos données 

1.1 Problématique & données

Série de questions

Lire un échantillon des données

Lister les variables et leur liens

Identifier votre problématique

Collecter des données

Faire un inventaire résumé de vos données

Descriptif des données / code

Open data / API / Scraping

Inspirez vous de l'existant !

Sources de données

Génériques

Thématiques

...

...

Traitements

Modelisation

Code

4. Organisez votre code

Commencez par des notebooks d'exploration

Enregistrez l'historique de vos itérations

Reformatez chaque brique reproductible en fonction ou classe !

Modularisez votre code

Un notebook par thématique

Discutez des résultats 

Créer une pipline automatisable 

CODE

MODELES

TRAITEMENTS

METRIQUES

5. Rendez votre code résilient

Mettez en place une chaîne de CI/CD

Pull request / merge request

Faites la revue de code

Codez des tests unitaires

Mettez en place d'autres actions automatiques

l'IA est plutot bonne pour ça !

Vérification de la qualité du code

Agent IA ?

l'IA peut vous assister

Pylint

6. Packagez votre code

Organisez votre projet comme un package python

Utilisez des conteneurs

Rendez votre projet déployable

A vous de jouer ;)

Made with Slides.com