Réaliser un data story telling
Nicolas Rochet
Janvier 2025



Qui suis je ?


Data for Good

Senior data scientist
Les étapes classiques d'un projet data
Deux approches
Fouille de données
Analyses dirigées
Extraire des connaissances
à partir d'un vaste ensemble de données
Les données & méthodes d'analyses sont choisies en fonction du problème
V
S
Les étapes d'un projet data
Déployer &
mettre en production
Structurer les données
Principes d'éthiques
Etude du besoin
Auditer les données
Veille scientifique et technique
Implémenter
algorithmes & modèles
Packaging du code
Livraison
Rapport
Communiquer

Procesus de traitement
Collecte de données
Préparation de donnes
Traitement
des données
Déploiement
Exploration des données
Modelisation
Identification de pattern
Besoin
Problème à résoudre
Réalité
Communication
Visualisation
Rapport
produit/service
Prise de décisions
données
nettoyées
Algorithmes
1. Installer votre l'écosystème python
COMPOSANTS
Python récent + paquets classiques en data science
Environnement de développement intégré (IDE)
Gestionnaire de paquets
Environnement vitrtuel
IA pour l'assistance au code ?
Dépot Git
Python et librairies
Paquets classiques en data science
numpy & pandas
scikit learn
stats model
matplotlib
seaborn
plotly
...
Installez les librairies additionnelles au fur et a mesure
pip install <paquet>conda install <paquet>IDE
Votre environnement pour produire du code
...



Jupyter lab
Visual Studio Code
PyCharm
Gestionnaire de paquet
Sert à gérer vos paquets :
Installation
mise à jour
gestion des dépendances
suppression
...
Quelques outils
pip
Installation
conda
pipx
poetry
...
Environnement virtuel
Sert à l'isolation du code de votre projet
garantit que vous utilisez uniquement les versions ciblés des paquets
facilite le partage des paquets aux mêmes versions
facilite la gestion de tous vos projets
Quelques outils
conda
virtualenv
...
Dépot Git (versionning)
Sert à versionner votre code et collaborer
Créez un dépot local
Invitez vos collaborateurs
Initialisez votre projet par un template
...
Créez un dépot distant
Poussez votre 1er commit !
Chaque collaborateur le récupère en local
Iterez !
Bonnes pratiques (minimales)
Chaque développeur crée une branche par tache
... pousse et demande la revue et la fusion
... développe du code et enregistre des commit
Le code fonctionnel est ajouté à la branche principale

Les assistants IA de code
De nombreux services proposent en proposent
Auto complétion
Génération de code
Debug & revue de code
Donner le bon contexte
Itérer pour avoir des prompts efficaces
Ecrire des commentaires
Créer un nouveau chat pour
chaque feature





Les outils les mieux classés sur SWE-bench !
devstral

...
2. Créer une arborescence pour votre projet
But
Donner une structure à votre projet
Intégrer les fichiers utiles : templates, fichier de configuration
Conseil
Exemple de structure de code
C'est à vous de la penser : ne déléguez pas cette partie à l'IA !
Conseil
Générez un template
Architecture des dossiers
Installer les librairies
Fichiers de configuration
Fichier de Todo
Peuplez les scripts de commentaires
Définir les tests

Mettez en place
la gestion de
projet
3.1 Détaillez toutes les tâches
Chef de projet
Data Analyst
Data Scientist
Data Ingénieur
Planifiez et préparez le suivi de projet
Collectez & explorez vos données
Mettez en place une pipeline de préparation de données
Mettez en place une pipeline de modélisation
Evaluez & discutez vos résultats
Découpez votre projet de tâches élémentaires parmi les étapes :
Réitérez !
3.2 Anticipez l'output final
Notebook / rapport
Déploiement ?
Outil ?
Dash board
Application
?
?
?
Local ? En ligne ?
Qualité du rendu ?
Quelle interface graphique ?
Quel backend ?
Etape 1 :
Sourcer et
résumer
vos données
1.1 Problématique & données
Série de questions
Lire un échantillon des données
Lister les variables et leur liens
Identifier votre problématique
Collecter des données
Faire un inventaire résumé de vos données
Descriptif des données / code
Open data / API / Scraping
Inspirez vous de l'existant !
Sources de données
Génériques
Thématiques
...
...
Traitements
Modelisation
Code
4. Organisez votre code
Commencez par des notebooks d'exploration
Enregistrez l'historique de vos itérations
Reformatez chaque brique reproductible en fonction ou classe !
Modularisez votre code
Un notebook par thématique
Discutez des résultats
Créer une pipline automatisable
CODE
MODELES
TRAITEMENTS
METRIQUES
5. Rendez votre code résilient
Mettez en place une chaîne de CI/CD
Pull request / merge request
Faites la revue de code
Codez des tests unitaires
Mettez en place d'autres actions automatiques
l'IA est plutot bonne pour ça !
Vérification de la qualité du code
Agent IA ?
l'IA peut vous assister
Pylint
6. Packagez votre code
Organisez votre projet comme un package python
Utilisez des conteneurs
Rendez votre projet déployable
A vous de jouer ;)
Realiser un projet de data story telling
By Nicolas Rochet
Realiser un projet de data story telling
- 2