Module 110 - Analyser et représenter des données avec des outils
partie 1
De quoi avons-nous parlé la semaine dernière ?
Temps à disposition : 5 minutes
Connectez-vous à : https://app.wooclap.com/EBFBDA
De quoi avons-nous parlé la semaine dernière ?
Fichier plats
Les métriques
Fichier de logs
APIs et Web Scraping
Correction :
- Cas pratique - Collecter des logs sous Linux
- Cas pratique - Collecter des logs sous Windows
Connaitre la différence entre pseudonymisation et anonymisation.
Citez les étapes d’anonymisation des données
Effectuer une anonymisation de données avec Amnésia
Nous allons voir dans les prochains slides la préparation de données, donc l'étape 2 du processus de monitoring
L’extraction et la préparation des données nécessitent une validation rigoureuse pour garantir leur fiabilité avant toute analyse et la conformité aux lois. Les erreurs de format, les valeurs aberrantes ou incomplètes peuvent fausser les résultats et induire des conclusions erronées. De plus, Il est essentiel de protéger les données sensibles contre tout accès non autorisé.
Connectez-vous à : https://app.wooclap.com/EBFBDA
et répondez à la question
Selon la RGPD et la nLPD, la notion de « données personnelles » est à comprendre de façon très large. Une « donnée personnelle » est « toute information se rapportant à une personne physique identifiée ou identifiable ».
Exemples : le nom, l'adresse e-mail, le numéro de téléphone, la date de naissance, ou encore l'adresse postale
Certaines données personnelles appartiennent à la catégorie des données sensibles
La RGPD et la nLPD interdit de recueillir ou d’utiliser ces données, sauf dans certains cas.
Exemples: l'origine raciale ou ethnique, les opinions politiques, les croyances religieuses, ainsi que les données concernant la santé, l'orientation sexuelle ou les convictions philosophiques
la pseudonymisation consiste à modifier les données personnelles afin qu’elles ne puissent plus être reliées à une personne spécifique sans informations supplémentaires ou sans effort disproportionné. Les données pseudonymisées restent cependant à risque de réidentification et sont de ce fait toujours considérées comme des données personnelles.
L’anonymisation consiste à modifier de façon irréversible les données personnelles de sorte qu’elles ne puissent plus être liées à une personne spécifique, sans effort disproportionné. Les données anonymisées ne sont plus considérées comme des données personnelles, et sortent du champ d’application de la LPD.
La généralisation consiste à remplacer certaines valeurs d’attributs par des valeurs plus génériques ou par marges de valeurs. Elle contribue à l’anonymisation éventuelle des données et à la sécurisation des données. Par exemple :
Effectuez l'exercice 1 de la Fiche de travail - La sécurisation des données
Temps: 10 minutes
Si ces données sont anonymisées, cela signifie qu'il n'est plus possible de remonter à l'identité réelle d'un individu à partir de ces données, même en les combinant.
La minimisation consiste à récolter le strict minimum de données. Certaines données, ou leurs combinaisons peuvent contribuer à l’identification des personnes concernées, même si individuellement elles ne sont pas personnelles ou sensibles.
Comme pour la généralisation, la minimisation des données contribue à l’anonymisation et la sécurisation des données.
Exemples de mesures à prendre pour protéger les données confidentielles, les mots de passe et autres données sensibles dans les logs
Effectuez l'exercice 2 de la Fiche de travail - La sécurisation des données
Temps: 10 minutes
Amnésia est un outil logiciel conçu pour l'anonymisation et la pseudonymisation des données personnelles, particulièrement utile dans des contextes où la protection des informations sensibles est essentielle, tout en permettant une analyse et une utilisation des données à des fins statistiques ou d'études
1. Importer votre jeu de données
2. Générer ou importer des hiérarchies d'anonymisation, Prenons l'attribut "Âge" comme exemple :
3. Configurer les paramètres d'anonymisation : Définissez le niveau d'anonymisation souhaité, tel que k-anonymat
4. Exécuter le processus d'anonymisation
5. Examiner et évaluer les résultats
Un jeu de données contenant des colonnes ID, Code Postal, Âge, Nationalité et Maladie, voici comment il faut configurer les paramètres :
Effectuez le Cas pratique - Anonymiser les données avec Amnésia
Temps: 45 minutes
Répondez aux différentes questions liées à la matière enseignée
Connectez-vous à : https://app.wooflash.com/join/1G69UJX7