Module 110 - Analyser et représenter des données avec des outils
partie 2
De quoi avons-nous parlé la semaine dernière ?
Temps à disposition : 5 minutes
Connectez-vous à : https://app.wooclap.com/EBFBDA
De quoi avons-nous parlé la semaine dernière ?
Démonstration des hiérarchies dans amnésia
Nous allons voir dans les prochains slides la préparation de données, donc l'étape 2 du processus de monitoring
La validation des données consiste à vérifier que les informations collectées respectent certaines règles prédéfinies afin d’assurer leur qualité et leur intégrité.
Connectez-vous à : https://app.wooclap.com/EBFBDA
et répondez à la question
Exactitude et cohérence : Les données doivent être précises et refléter fidèlement la réalité
Exemple : Une date de naissance ne peut pas être postérieure à la date actuelle
Complétude : Une donnée est considérée comme valide si toutes les informations requises sont présentes, une absence de valeur critique peut entraîner des erreurs dans les traitements ultérieurs
Exemple: rue présente, ville manquante
Unicité : La duplication peut entraîner des incohérences et des erreurs dans les rapports.
Exemple: Certaines données doivent être uniques comme les numéros de commande, les identifiants clients
Intégrité référentielle : Les relations entre les différentes tables ou ensembles de données doivent être respectées.
Exemple: Un utilisateur dans une table "commandes" doit exister dans la table "clients".
Plausibilité : Certaines valeurs doivent être réalistes en fonction du contexte.
Exemple: Un salaire négatif ou une température de 500°C en Suisse sont des valeurs suspectes.
Les valeurs limites permettent de détecter les erreurs et les anomalies dans un jeu de données. Elles sont définies en fonction de la plage acceptable des valeurs pour un paramètre donné.
Types de valeurs limites :
| Paramètre | Valeur minimale | Valeur maximale | Action si hors limite |
|---|---|---|---|
| Température serveur | 10°C | 50°C | Génération d’une alerte |
| Âge client | 18 ans | 150 ans | Vérification manuelle |
| Taux d’erreur système | 0% | 5% | Investigation si dépassement |
Liste d’autorisation (Whiteliste)
Une liste d'autorisation contient des valeurs ou des ensembles de valeurs considérées comme acceptables ou sûres. Seules les données correspondant à ces valeurs sont acceptées lors de la validation.
Exemple : Dans un fichier d'analyse de données bancaire, une liste d'autorisation peut vérifier que les transactions ne proviennent que des codes des pays autorisés qu'elle contient, afin de rejeter toute transaction provenant d'un pays non répertorié.
Liste de refus (Blacklist)
Une liste de refus regroupe des valeurs ou des ensembles de valeurs considérées comme indésirables ou dangereuses. Les données correspondant à ces valeurs sont rejetées lors de la validation.
Exemple : Une blacklist peut être utilisée pour bloquer les alertes inutiles en excluant certaines valeurs erronées connues, comme des capteurs défectueux qui envoient des mesures aberrantes. Cela permet d’améliorer la fiabilité des alertes et d’éviter des analyses faussées.
Connectez-vous à : https://app.wooclap.com/EBFBDA
et répondez à la question
Formats et types de données : Le respect des formats standards est essentiel pour assurer une compatibilité entre les systèmes et éviter les erreurs d’intégration.
Enrichissement des données : Choix, ajout ou personnalisation de colonnes
Formats et types de données
Formats et types de données
Contraintes et standardisation des formats :
L'échantillonnage est une méthode statistique utilisée pour sélectionner une partie représentative d'un ensemble de données afin d'en évaluer la qualité ou d'en tirer des conclusions. En sélectionnant un échantillon représentatif, il est possible d'évaluer la qualité des données sans avoir à examiner l'ensemble de la population.
Cette méthode réduit le temps et les ressources nécessaires pour la validation, tout en fournissant des informations fiables sur l'ensemble des données
Type d’échantillonnage :
Type d’échantillonnage :
Échantillonnage aléatoire simple
Au final, on constate rapidement que des intervalles de données hétérogènes peuvent donner des résultats assez éloignés de la réalité, conclusions :
ELK Stack est un ensemble d’outils open-source composé de permettant la collecte, l’analyse et la visualisation des logs en temps réel.
ELK permet d'agréger les journaux de tous les systèmes et applications :
Acronyme de Elasticsearch, Logstash et Kibana. Représente trois outils open source créé et maintenu par Elastic souvent appelée Elasticsearch :
Beats est un ensemble d’outils permettant l’envoi de logs. Ces outils devront être installés sur les machines qui seront monitorées. Ils agiront comme des agents qui collectent les journaux d'événement et logs :
Filebeat : ingestion de fichiers de logs
Packetbeat : ingestion de fichiers de capture réseau
Auditbeat : ingestion de fichiers audit
Heartbeat : vérification si un service est disponible ou non
Functionbeat : monitoring des environnements cloud
Journalbeat : ingestion des logs systeme
Metricbeat : collection des métriques de différents systèmes
Winlogbeat : collection de logs Windows
Logstash permet l'agrégation et le formatage de données pour l’envoi dans Elasticsearch. Logstash vous permettra donc d'envoyer différents types de données autres que des logs.
ElasticSearch est le moteur principal de la stack ELK : c’est lui qui va stocker les données et les rendre accessibles.
Elasticsearch stocke les données au format JSON. Ces données sont contenues dans des index qui sont des bases de données.
Les index contiennent des documents dans lesquels les données sont organisées dans des “fields”, c'est-à-dire des champs. Dans le screenshot ci-dessous, des fields sont définis dans la colonne de gauche
Pour récupérer les données,
Elasticsearch fonctionne
comme une API RESTful
Elasticsearch stocke les données au format JSON. Ces données sont contenues dans des index qui sont des bases de données.
Les index contiennent des documents dans lesquels les données sont organisées dans des “fields”, c'est-à-dire des champs. Dans le screenshot ci-dessous, des fields sont définis dans la colonne de gauche
Pour récupérer les données,
Elasticsearch fonctionne
comme une API RESTful
Kibana va permettre de visualiser les données d’Elasticsearch en temps réel. Cet outil vous propose des dashboards préconfigurés pour analyser les logs qui vous sont remontés. Il est également possible de visualiser et d'explorer vos données dans la section Discover
Splunk est une plateforme propriétaire spécialisée dans la collecte, l’indexation et l’analyse des données issues des logs en temps réel. Elle permet d'effectuer des recherches avancées, de créer des alertes et de générer des tableaux de bord interactifs.
En plus d'être une plateforme de gestion et d'analyse des journaux, Splunk est également commercialisée comme une solution de gestion des informations et des événements de sécurité SIEM
(Security Information and Event Management)
Graylog
est une solution de gestion des journaux (log management) et d'analyse de données en temps réel. Il est souvent utilisé pour centraliser, analyser et visualiser les logs des systèmes et applications.
Cas d'utilisation :
Wazuh
est une plateforme de sécurité open-source orientée SIEM (Security Information and Event Management). Elle se concentre sur la surveillance de la sécurité, la détection des menaces, et la conformité.
Cas d'utilisation :
Effectuez le Cas pratique 5 - Transformer et nettoyer les données dans ELK
Temps: 45 minutes
Répondez aux différentes questions liées à la matière enseignée
Connectez-vous à : https://app.wooflash.com/join/1G69UJX7