Module 110 - Analyser et représenter des données avec des outils

Préparer des données

partie 1

De quoi avons-nous parlé la semaine dernière ?

Temps à disposition : 5 minutes

Connectez-vous à : https://app.wooclap.com/EBFBDA

De quoi avons-nous parlé la semaine dernière ?

Fichier plats

Les métriques

Fichier de logs

APIs et Web Scraping

Cas pratique

Correction :

- Cas pratique - Collecter des logs sous Linux

- Cas pratique - Collecter des logs sous Windows

 

 

 

 

 

 

 

 

Objectifs du cours

  • Connaitre la différence entre pseudonymisation et anonymisation.

  • Citez les étapes d’anonymisation des données

  • Effectuer une anonymisation de données avec Amnésia

     

Les étapes de l'analyse de données

Nous allons voir dans les prochains slides la préparation de données, donc l'étape 2 du processus de monitoring

Lecture et validation des données

L’extraction et la préparation des données nécessitent une validation rigoureuse pour garantir leur fiabilité avant toute analyse et la conformité aux lois. Les erreurs de format, les valeurs aberrantes ou incomplètes peuvent fausser les résultats et induire des conclusions erronées. De plus, Il est essentiel de protéger les données sensibles contre tout accès non autorisé.

Lois sur la protection des données

Lois sur la protection des données

Connectez-vous à : https://app.wooclap.com/EBFBDA
et répondez à la question

Lois sur la protection des données

Selon la RGPD et la nLPD, la notion de « données personnelles » est à comprendre de façon très large. Une « donnée personnelle » est « toute information se rapportant à une personne physique identifiée ou identifiable ».

 

Exemples : le nom, l'adresse e-mail, le numéro de téléphone, la date de naissance, ou encore l'adresse postale

Lois sur la protection des données

Certaines données personnelles appartiennent à la catégorie des données sensibles

 

La RGPD et la nLPD interdit de recueillir ou d’utiliser ces données, sauf dans certains cas.

Exemples: l'origine raciale ou ethnique, les opinions politiques, les croyances religieuses, ainsi que les données concernant la santé, l'orientation sexuelle ou les convictions philosophiques

Analyse, archive et effacement des données

  • Pseudonymisation
  • Anonymisation
  • Généralisation
  • Minimisation

Pseudonymisation

la pseudonymisation consiste à modifier les données personnelles afin qu’elles ne puissent plus être reliées à une personne spécifique sans informations supplémentaires ou sans effort disproportionné. Les données pseudonymisées restent cependant à risque de réidentification et sont de ce fait toujours considérées comme des données personnelles.

Anonymisation

L’anonymisation consiste à modifier de façon irréversible les données personnelles de sorte qu’elles ne puissent plus être liées à une personne spécifique, sans effort disproportionné. Les données anonymisées ne sont plus considérées comme des données personnelles, et sortent du champ d’application de la LPD.

Généralisation

La généralisation consiste à remplacer certaines valeurs d’attributs par des valeurs plus génériques ou par marges de valeurs. Elle contribue à l’anonymisation éventuelle des données et à la sécurisation des données. Par exemple :

  • Remplacer une date de naissance (8.03.1980) par l’année de naissance (1980), ou encore par une hiérarchie d'âge (ex. 40-50).
  • Remplacer une adresse exacte par sa ville, région ou canton
  • Remplacer une nationalité par une région géographique, ou continent

Fiche de travail

Effectuez l'exercice 1 de la Fiche de travail - La sécurisation des données

 

Temps: 10 minutes

 

 

 

 

 

 

 

 

 

 

Problèmes en cas d'attaque

Si ces données sont anonymisées, cela signifie qu'il n'est plus possible de remonter à l'identité réelle d'un individu à partir de ces données, même en les combinant.

Minimisation

La minimisation consiste à récolter le strict minimum de données. Certaines données, ou leurs combinaisons peuvent contribuer à l’identification des personnes concernées, même si individuellement elles ne sont pas personnelles ou sensibles.

 

Comme pour la généralisation, la minimisation des données contribue à l’anonymisation et la sécurisation des données.

Minimisation

Exemples de mesures à prendre pour protéger les données confidentielles, les mots de passe et autres données sensibles dans les logs

  • Protection des mots de passe dans les logs
  • Principe du Moindre Privilège (Least Information Principle)
  • Chiffrement des logs
  • Authentification forte
  • Rotation des logs
  • Surveillance et alertes
  • Audits réguliers

Fiche de travail

Effectuez l'exercice 2 de la Fiche de travail - La sécurisation des données

 

Temps: 10 minutes

 

 

 

 

 

 

 

 

 

 

L'outil Amnésia

Amnésia est un outil logiciel conçu pour l'anonymisation et la pseudonymisation des données personnelles, particulièrement utile dans des contextes où la protection des informations sensibles est essentielle, tout en permettant une analyse et une utilisation des données à des fins statistiques ou d'études

L'outil Amnésia

  • Anonymisation des données : Amnésia applique des techniques telles que le hachage, la généralisation, la pseudonymisation, ou l'agrégation pour rendre les données irréversiblement anonymes

  • Généralisation des données avec des hiérarchies et des paramètres : Amnésia permet de définir des hiérarchies d'anonymisation qui permettent de spécifier à quel niveau les données doivent être anonymisées.
     
  • Traçabilité : Amnésia peut garder une trace des transformations appliquées aux données, permettant une transparence et un contrôle des actions réalisées, ce qui est important pour la conformité avec des exigences légales

Etapes d'anonymisation avec Amnésia

1.    Importer votre jeu de données

2.    Générer ou importer des hiérarchies d'anonymisation, Prenons l'attribut "Âge" comme exemple :

  • Niveau 0 (spécifique) : 28 ans
  • Niveau 1 (généralisation modérée) : 20-30 ans
  • Niveau 2 (généralisation élevée) : 20-40 ans
  • Niveau 3 (très général) : adulte

3.    Configurer les paramètres d'anonymisation : Définissez le niveau d'anonymisation souhaité, tel que k-anonymat

4.    Exécuter le processus d'anonymisation

5.    Examiner et évaluer les résultats

Exemple pratique d'anonymisation

Un jeu de données contenant des colonnes ID, Code Postal, Âge, Nationalité et Maladie, voici comment il faut configurer les paramètres :

  • Généralisation de l'Âge par tranche de 10 ans
  • Généralisation du Code Postal en supprimant les deux derniers chiffres (28001 → 280XX).
  • Suppression de la nationalité
  • k-anonymat = 5 pour garantir qu'au moins 5 personnes partagent les mêmes valeurs de quasi-identifiants.

 

Exemple pratique d'anonymisation

Cas pratique

Effectuez le Cas pratique  - Anonymiser les données avec Amnésia

 

Temps: 45 minutes

 

 

 

 

 

 

 

 

 

 

Wooflash

Répondez aux différentes questions liées à la matière enseignée

 

 

 

 

 

 

 

 

 

 

 

Connectez-vous à : https://app.wooflash.com/join/1G69UJX7