Gouvernance de la donnée /

Organisation.

Porte la responsabilité de la qualité, de l’intégrité et de la sécurité d'un jeu de données

Propriétaire de la donnée

Assure au quotidien la qualité,  l’intégrité et la disponibilité d'un jeu de données

Gestionnaire de la donnée

Met en place les infrastructures nécessaires à l'exploitation de données de qualité au quotidien.

Data engineer

Extrapole les analyses existantes pour tenter de les généraliser en modèles

Data scientist

S'appuie sur les jeux de données identifiés pour produire des analyses quantitatives

Data analyst

Coordonne l'activité data transverse. Il ou elle assure l'alignement de la stratégie data avec la stratégie métier.

Chief Data Officer

ÉQUIPES MÉTIER

ÉQUIPES INFORMATIQUE

Point de contact privilégié pour le maintien et l'évolution d'un produit data identifié

Chef·fe de produit data

Elles consomment et produisent les données

Elles permettent le stockage et l'accès aux données

En fonction de la taille de l'organisation, une personne peut porter un ou plusieurs de ces rôles.

Méthodologie de transition data

Le cycle d'amélioration continue

Réaliser un audit

Cartographies initiales

Points de douleurs & points forts

SWOT

Qui publie ?

Qui vérifie ?

Qui stocke?

Qui consulte ?

Identifier le point de départ pour mesurer la trajectoire

À l'issue de l'audit...

Formaliser les catalogues de données verticaux

quels services utilisent quelles données ?

Identifier les redondances ou les opportunités de rationalisation parmis ces catalogues verticaux.

objectif : casser les silos

quelles métadonnées pour qualifier les données ?

Les données et les indicateurs calculés doivent être compréhensibles pour les métiers, ainsi que pour les équipes techniques.

quels sont les indicateurs et rapports partagés ?

comment centraliser l'information ?

qualité intrinsèque de la donnée

qualité d'usage de la donnée

Identifier plusieurs projets (use case) prioritaires pour entamer une modernisation des pratiques data (victoires rapides et transformations de fond).

Commencer à formaliser une stratégie pluriannuelle d'évolutions des pratiques et des traitements de données.

À l'issue de l'audit,

Initier la rédaction d'une politique de traitement des données. (⚠️ RGPD)

Gouvernance de la donnée

Commencer petit, mais penser grand

Perspectives d'outillage

Privilégier une approche en Data Lakehouse à une approche en Data Warehouse, lorsque les sources de données sont très diversifiées.

On recense et on référence les sources de données brutes (Master Datasets)

On responsabilise les producteurs et fournisseurs de données (data owners & data steward)

Les transformations et les aggrégations sont realisées dans l'environnement Lakehouse et produisent des vues métiers

Les métiers et les data analysts utilisent les vues dédiées pour produire leurs rapports

Data Galaxy

Dremio

(Instantanné si on dispose déjà d'une modern data stack. CSV TBD)

(On pourrait y uploader des CSV)

image source : data galaxy, YouTube

Databricks

(Risque d'hébergement USA obligatoire)

Modern Data Stack ?

Ensemble d'outils Cloud qui permettent de supporter le cycle de vie des données d'une organisation

image source : data galaxy, YouTube

1. Ingestion/transformation de la donnée

2. Stockage/warehouse

3. Visualisation

Comment monter sa stack ?

Compétences internes VS. technologies

Budget VS. pricing

Disponibilité des équipes VS.

Charge de montée en compétence

Transition organisationnelle > data centric

By Massimo 810

Transition organisationnelle > data centric

Comment organiser et initier la transition data d'une organisation dont les sources de données seraient très diversifiées, tant en formats qu'en fournisseurs.

  • 102