Nastasia Saby
@saby_nastasia
Konecranes
swcraftlyon
#PHP, #Scala, #Python, #Spark, #ML, #TDD, #Craft
@saby_nastasia
Manifeste Craft
Pas seulement des logiciels opérationnels,
mais aussi des logiciels bien conçus.
Pas seulement l'adaptation aux changements,
mais aussi l'ajout constant de la valeur.
Pas seulement les individus et leurs interactions,
mais aussi une communauté de professionnels.
Pas seulement la collaboration avec les clients,
mais aussi des partenariats productifs.
Pas seulement l'adaptation aux changements,
mais aussi l'ajout constant de la valeur
Data
Data
Transformation
Données marketing, du web, open data, etc
Kafka, Base de données, FTP, Fichiers distribués
Avro, Parquet, CSV, XML
Intelligence artificielle
Machine learning
Intelligence artificielle
Deep learning
1.Collecter
Données marketing, du web, open data, etc
Kafka, Base de données, FTP, Fichiers distribués
Avro, Parquet, CSV, XML
2. Nettoyer
3. Rassembler
4. Extraire de nouvelles caractéristiques
5. Apprentissage
Ouverture - fermeture porte en secondes | Panne |
---|---|
30 | Non |
90 | Oui |
10 | Oui |
etc. | etc. |
Data
Fonction
Algorithme
30 secondes - Non
60 secondes - Oui
etc.
Algorithme : réseau de neurones ou autres
6. Valider/expliquer
7. Mettre en forme résultats
Est-ce qu'on développe encore quand on fait de la data ?
Oui
Est-ce qu'on développe encore quand on fait de la data ?
Non, pas toujours
Data analyse
Mise en place de validation AB Testing
Hypothèse nulle (H0) : le fond ne change rien
Hypothèse alternative (H1) : le fond change quelque chose au comportement
On va utiliser la p-valeur !
P-value?
No way!
On s'est bien pris la tête, mais on n'a pas dev
DataViz
Proximité entre deux êtres à travers le temps
Comment ajouter constamment de la valeur ?
Les projets partent peu en production
Extreme data science
Pas seulement des logiciels opérationnels,
mais aussi des logiciels bien conçus.
Surprise !
On teste en prod.
10 millions d'utilisateurs tous les jours
Travail sur machine 1
Travail sur machine 2
Travail sur machine 3
Outil de processing distribué
Big Data or not big data? That is the question.
Surprise !
Il va falloir réviser ta manière de tester.
On ne manipule pas des lists, mais des dataframes !
Problèmes de performance ! \O/
Vive le monde de l'IO !
Oh de nouvelles odeurs !
Hidden Technical Debt in Machine Learning Systems
Consommateurs de la données non déclarés
Données en dépendance sous utilisées
Prototype
Pas seulement la collaboration avec les clients,
mais aussi des partenariats productifs.
Results
Data
Program
Program
Data
Results
Data
Fonction
Algorithme
Un total de 110 cas.
10 cas sont des pannes.
100 ne sont pas des pannes.
Pannes prédites | Non pannes prédites | |
---|---|---|
Pannes réelles | 2 | 8 |
Non pannes réelles | 2 | 98 |
Un total de 110 cas.
10 cas sont des pannes.
100 ne sont pas des pannes.
Pannes prédites | Non pannes prédites | |
---|---|---|
Pannes réelles | 2 | 8 |
Non pannes réelles | 2 | 98 |
98 + 2 = 100 cas bien prédits sur 110 - 90%
Mais en vrai combien de pannes prédites ?
Pannes prédites | Non pannes prédites | |
---|---|---|
Pannes réelles | 2 | 8 |
Non pannes réelles | 2 | 98 |
98 + 2 = 100 cas bien prédits sur 110 - 90%
2 pannes sur 10 ont réussi à être prédite - 20%
Vive le monde de l'IO !
Pas seulement les individus et leurs interactions,
mais aussi une communauté de professionnels.
Data ingénieur
Data scientiste
Ingénieur machine learning
Plusieurs stratégies :
- Reprise
- Intégration du modèle
- Pair programming
Des questions ?
Nastasia Saby
@saby_nastasia
Konecranes
swcraftyon