Massimo 810 PRO
IT + Culture = <3
Porte la responsabilité de la qualité, de l’intégrité et de la sécurité d'un jeu de données
Propriétaire de la donnée
Assure au quotidien la qualité, l’intégrité et la disponibilité d'un jeu de données
Gestionnaire de la donnée
Met en place les infrastructures nécessaires à l'exploitation de données de qualité au quotidien.
Data engineer
Extrapole les analyses existantes pour tenter de les généraliser en modèles
Data scientist
S'appuie sur les jeux de données identifiés pour produire des analyses quantitatives
Data analyst
Coordonne l'activité data transverse. Il ou elle assure l'alignement de la stratégie data avec la stratégie métier.
Chief Data Officer
ÉQUIPES MÉTIER
ÉQUIPES INFORMATIQUE
Point de contact privilégié pour le maintien et l'évolution d'un produit data identifié
Chef·fe de produit data
Elles consomment et produisent les données
Elles permettent le stockage et l'accès aux données
Qui publie ?
Qui vérifie ?
Qui stocke?
Qui consulte ?
Identifier le point de départ pour mesurer la trajectoire
Formaliser les catalogues de données verticaux
quels services utilisent quelles données ?
Identifier les redondances ou les opportunités de rationalisation parmis ces catalogues verticaux.
objectif : casser les silos
quelles métadonnées pour qualifier les données ?
Les données et les indicateurs calculés doivent être compréhensibles pour les métiers, ainsi que pour les équipes techniques.
quels sont les indicateurs et rapports partagés ?
comment centraliser l'information ?
qualité intrinsèque de la donnée
qualité d'usage de la donnée
Identifier plusieurs projets (use case) prioritaires pour entamer une modernisation des pratiques data (victoires rapides et transformations de fond).
Commencer à formaliser une stratégie pluriannuelle d'évolutions des pratiques et des traitements de données.
Initier la rédaction d'une politique de traitement des données. (⚠️ RGPD)
Privilégier une approche en Data Lakehouse à une approche en Data Warehouse, lorsque les sources de données sont très diversifiées.
On recense et on référence les sources de données brutes (Master Datasets)
On responsabilise les producteurs et fournisseurs de données (data owners & data steward)
Les transformations et les aggrégations sont realisées dans l'environnement Lakehouse et produisent des vues métiers
Les métiers et les data analysts utilisent les vues dédiées pour produire leurs rapports
Data Galaxy
Dremio
(Instantanné si on dispose déjà d'une modern data stack. CSV TBD)
(On pourrait y uploader des CSV)
image source : data galaxy, YouTube
Databricks
(Risque d'hébergement USA obligatoire)
Ensemble d'outils Cloud qui permettent de supporter le cycle de vie des données d'une organisation
image source : data galaxy, YouTube
1. Ingestion/transformation de la donnée
2. Stockage/warehouse
3. Visualisation
Compétences internes VS. technologies
Budget VS. pricing
Disponibilité des équipes VS.
Charge de montée en compétence
By Massimo 810
Comment organiser et initier la transition data d'une organisation dont les sources de données seraient très diversifiées, tant en formats qu'en fournisseurs.