Les crafters font de la data

Nastasia Saby

@saby_nastasia

Konecranes

swcraftlyon

#PHP, #Scala, #Python, #Spark, #ML, #TDD, #Craft

 

@saby_nastasia

Manifeste Craft

Pas seulement des logiciels opérationnels,

mais aussi des logiciels bien conçus.

Pas seulement l'adaptation aux changements,

mais aussi l'ajout constant de la valeur.

Pas seulement les individus et leurs interactions,

mais aussi une communauté de professionnels.

Pas seulement la collaboration avec les clients,

mais aussi des partenariats productifs.

Pas seulement l'adaptation aux changements,

mais aussi l'ajout constant de la valeur

Data

Data

Transformation

Données marketing, du web, open data, etc

Kafka, Base de données, FTP, Fichiers distribués

Avro, Parquet, CSV, XML

Intelligence artificielle

Machine learning

Intelligence artificielle

Deep learning

  1. Collecter
  2. Nettoyer
  3. Rassembler
  4. Extraire de nouvelles caractéristiques
  5. Apprentissage
  6. Valider/expliquer
  7. Mettre en forme le résultat

1.Collecter

Données marketing, du web, open data, etc

Kafka, Base de données, FTP, Fichiers distribués

Avro, Parquet, CSV, XML

2. Nettoyer

3. Rassembler

4. Extraire de nouvelles caractéristiques

5. Apprentissage

Ouverture - fermeture porte en secondes Panne
30 Non
90 Oui
10 Oui
etc. etc.

Data

Fonction

Algorithme

30 secondes - Non

60 secondes - Oui

etc.

Algorithme : réseau de neurones ou autres

6. Valider/expliquer

7. Mettre en forme résultats

Est-ce qu'on développe encore quand on fait de la data ?

Oui

Est-ce qu'on développe encore quand on fait de la data ?

Non, pas toujours

Data analyse

Mise en place de validation AB Testing

Hypothèse nulle (H0) : le fond ne change rien

         

Hypothèse alternative (H1) : le fond change quelque chose au comportement

On va utiliser la p-valeur !

P-value?

No way!

On s'est bien pris la tête, mais on n'a pas dev

DataViz

Proximité entre deux êtres à travers le temps

Comment ajouter constamment de la valeur ?

Les projets partent peu en production

Extreme data science

Pas seulement des logiciels opérationnels,

mais aussi des logiciels bien conçus.

Surprise !

On teste en prod.

10 millions d'utilisateurs tous les jours

Travail sur machine 1

Travail sur machine 2

Travail sur machine 3

Outil de processing distribué

Big Data or not big data? That is the question.

Surprise !

Il va falloir réviser ta manière de tester.

On ne manipule pas des lists, mais des dataframes !

Problèmes de performance ! \O/

Vive le monde de l'IO !

Oh de nouvelles odeurs !

Hidden Technical Debt in Machine Learning Systems

Consommateurs de la données non déclarés

Données en dépendance sous utilisées

Prototype

Pas seulement la collaboration avec les clients,

mais aussi des partenariats productifs.

Results

Data

Program

Program

Data

Results

Data

Fonction

Algorithme

Un total de 110 cas.

10 cas sont des pannes.

100 ne sont pas des pannes.

 

Pannes prédites Non pannes prédites
Pannes réelles 2 8
Non pannes réelles 2 98

Un total de 110 cas.

10 cas sont des pannes.

100 ne sont pas des pannes.

 

Pannes prédites Non pannes prédites
Pannes réelles 2 8
Non pannes réelles 2 98

98 + 2 = 100 cas bien prédits sur 110 - 90%

Mais en vrai combien de pannes prédites ?

Pannes prédites Non pannes prédites
Pannes réelles 2 8
Non pannes réelles 2 98

98 + 2 = 100 cas bien prédits sur 110 - 90%

2 pannes sur 10 ont réussi à être prédite - 20%

Vive le monde de l'IO !

Pas seulement les individus et leurs interactions,

mais aussi une communauté de professionnels.

Data ingénieur

Data scientiste

Ingénieur machine learning

Plusieurs stratégies :

- Reprise

- Intégration du modèle

 - Pair programming

Merci

Des questions ?

Nastasia Saby

@saby_nastasia

Konecranes

swcraftyon

Made with Slides.com