Nicolas Rochet
Janvier 2025
Extraire des connaissances
à partir d'un vaste ensemble de données
Les données & méthodes d'analyses sont choisies en fonction du problème
V
S
Déployer &
mettre en production
Structurer les données
Principes d'éthiques
Etude du besoin
Auditer les données
Veille scientifique et technique
Implémenter
algorithmes & modèles
Packaging du code
Livraison
Rapport
Communiquer
Collecte de données
Préparation de donnes
Traitement
des données
Déploiement
Exploration des données
Modelisation
Identification de pattern
Besoin
Problème à résoudre
Réalité
Communication
Visualisation
Rapport
produit/service
Prise de décisions
données
nettoyées
Algorithmes
Python récent + paquets classiques en data science
Environnement de développement intégré (IDE)
Gestionnaire de paquets
Environnement vitrtuel
IA pour l'assistance au code ?
Dépot Git
Paquets classiques en data science
numpy & pandas
scikit learn
stats model
matplotlib
seaborn
plotly
...
Installez les librairies additionnelles au fur et a mesure
pip install <paquet>conda install <paquet>Votre environnement pour produire du code
...
Jupyter lab
Visual Studio Code
PyCharm
Installation
mise à jour
gestion des dépendances
suppression
...
pip
Installation
conda
pipx
poetry
...
garantit que vous utilisez uniquement les versions ciblés des paquets
facilite le partage des paquets aux mêmes versions
facilite la gestion de tous vos projets
conda
virtualenv
...
Créez un dépot local
Invitez vos collaborateurs
Initialisez votre projet par un template
...
Créez un dépot distant
Poussez votre 1er commit !
Chaque collaborateur le récupère en local
Chaque développeur crée une branche par tache
... pousse et demande la revue et la fusion
... développe du code et enregistre des commit
Le code fonctionnel est ajouté à la branche principale
De nombreux services proposent en proposent
Auto complétion
Génération de code
Debug & revue de code
Donner le bon contexte
Itérer pour avoir des prompts efficaces
Ecrire des commentaires
Créer un nouveau chat pour
chaque feature
Les outils les mieux classés sur SWE-bench !
devstral
...
Donner une structure à votre projet
Intégrer les fichiers utiles : templates, fichier de configuration
C'est à vous de la penser : ne déléguez pas cette partie à l'IA !
Conseil
Générez un template
Architecture des dossiers
Installer les librairies
Fichiers de configuration
Fichier de Todo
Peuplez les scripts de commentaires
Définir les tests
Planifiez et préparez le suivi de projet
Collectez & explorez vos données
Mettez en place une pipeline de préparation de données
Mettez en place une pipeline de modélisation
Evaluez & discutez vos résultats
Découpez votre projet de tâches élémentaires parmi les étapes :
Réitérez !
Notebook / rapport
Déploiement ?
Outil ?
Dash board
Application
Local ? En ligne ?
Qualité du rendu ?
Quelle interface graphique ?
Quel backend ?
Série de questions
Lire un échantillon des données
Lister les variables et leur liens
Identifier votre problématique
Collecter des données
Faire un inventaire résumé de vos données
Descriptif des données / code
Open data / API / Scraping
Inspirez vous de l'existant !
Génériques
Thématiques
...
...
Commencez par des notebooks d'exploration
Enregistrez l'historique de vos itérations
Reformatez chaque brique reproductible en fonction ou classe !
Modularisez votre code
Un notebook par thématique
Discutez des résultats
Créer une pipline automatisable
CODE
MODELES
TRAITEMENTS
METRIQUES
Mettez en place une chaîne de CI/CD
Pull request / merge request
Faites la revue de code
Codez des tests unitaires
Mettez en place d'autres actions automatiques
l'IA est plutot bonne pour ça !
Vérification de la qualité du code
Agent IA ?
l'IA peut vous assister
Pylint
Organisez votre projet comme un package python
Utilisez des conteneurs
Rendez votre projet déployable