Introduction à la
Fouille de données
Nicolas Rochet
2019 - 2020
Activité participative
Quels mots vous évoquent la fouille de données ?
Des définitions
I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets , David Hand
Data Mining is
the nontrivial process of identifying valid, novel,
potentially useful, and ultimately understandable
patterns in data,U.M.Fayyad, G.Piatetski-Shapiro
Définition résumée
La fouille de données est l'art d'extraire des connaissances à partir d'un vaste ensemble de données
Visualisation
données
Data story telling
Tableau de bord
Graphiques
Analyse de données
Systèmes d'information
Statistiques
IA
Structures de données
Langages informatiques
Data management
Modèles vs Patterns
La fouille de données recherche des informations de deux types
Modèles
Patterns
(ou comportements)
Une structure caractéristique qui se manifeste dans un petit nombre d'observations
Un modèle est un résumé global
des relations entre variables, permettant de comprendre des phénomènes, et d’émettre des
prévisions
Patterns
Une structure caractéristique qui se manifeste dans un petit nombre d'observations
Exemples
profils
d'utilisateurs/clients/prospects
erreurs de mesures
...
comportements
caractéristiques
Outils
classification
règles d'associations
...
réduction de dimension
clustering
plongements
Modèles
Un résumé global des relations entre variables
réseaux de neurones
Support Vector Machine (SVM)
régressions
arbres de décision
réseaux bayésiens
...
linéaire vs non linéaire
explicite vs implicite
prédictif vs exploratoire
Exemples
Caractéristiques
Attention aux modèles !
Un modèle reste une approximation de la réalité
Tous les modèles sont faux, certains sont utiles, Georges Box
Les modèles utilisés ne sont pas issus d'une théorie prédéterminée mais de l'exploration de données
Approche "Data-driven"
Attention aux modèles !
Exemple du sur-apprentissage

Quel intérêt ?
La métaphore du Data Mining signifie qu’il y a des trésors cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés
Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire d'ensemble de données disponibles mais sous exploitées
Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences, ...)
Origines & évolutions
Utilisé à l'origine par les statisticiens en l'absence
de théories a priori
Essor du Big Data
Evolution des bases de données et infrastructures de donnés (entrepôt de données, lac de données)
Développement de méthodes décisionnelles "data-driven" dans les entreprises: marketing relation client, logistique, ...
Essor de la recherche en Intelligence Artificielle, Extraction de Connaissances, ...



Cas d'usages
Améliorer la relation client
Recommander des produits/services
'Scoring' de clients
Comprendre le comportement
Trouver de nouveaux modèles
Identifier des profils types
...
Assurance
Science
Web & Média
Grande distibution
Bancaire
analyse de risque
indémnisation automatisée
Détection de fraude
Marketing ciblé
Optimisation rayonage
Data mining et KDD
Le data mining est une "étape" d'un processus général d'information: le Knowledge Discovery in Databases
Sources de données
Fouille de données
Mise en forme des connaissances
Exploitation & Déploiement
Base de données
Entrepôt de donnée
Fichiers
Logiciels
Documents papier
Structuration
Modèles
Connaissances
Enrichissement
Aspects pratiques
Formats & structures de donnés
catégorielles
quantitatives
Types de données
continues
discrètes
images
séries temporelles
géographiques
texte
vidéos
entiers
discrètes
continues
...
...
Structures de données
Primaires
entiers
flottants
booléens
références
Abstraites
conteneurs
listes
arrays
tuples
set
piles
files
graphes
Nettoyage & préparation de données
Gérer des problèmes d'encodage de caractères (ASCII, Utf8, ...)
Gérer les valeurs abbérantes
Nettoyage
Gérer les valeurs manquantes
Préparation
Formater (tabulaires, JSON, XML, graphes, ...)
Structurer
Enrichir/aggréger
web scraping
open data
slicing
parsing
expressions régulières
...
data streaming

Quelques outils
RapidMiner
KNIME
Graphiques
SAS
SPSS
Weka
R
Python
Code informatique
Spark
Matlab
Tableau Software
...
...
Plateformes DataScience SaaS
Orange
Exercices
Annexes
Logiciels pour le data mining
Tests et démos de quelques logiciels
http://tutoriels-data-mining.blogspot.com/2016/10/etude-des-logiciels-de-data-science.html
Tutoriel pour mon préféré, le logiciel KNIME
http://marcoghislanzoni.com/blog/2016/04/27/knime-for-beginners-part-1/
Programmation en python
Portail du master SISE pour l'initiation a python
http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_python.html
Programmation sous R
Portail du master SISE pour l'initiation au langage R
http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_R.html
Exercice 1
Explorez un jeu de données de vin rouge pour déterminer les caractéristiques d'un bon vin
Exercice 2
Apprenez à détection de données abberantes et anormales dans un jeu de donnée
Exercice 3
Manipulez des expressions régulières avec R
dataset & informations :
http://tutoriels-data-mining.blogspot.com/2017/01/les-expression-regulieres-sous-r.html
Exercice 4
Initiation au text mining avec KNIME et RapidMiner
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2014/04/text-mining-avec-knime-et-rapidminer.html
téléchargements logiciels
Exercice 5
Identifier des types de communautés dans des données de type réseau sociaux
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2017/04/detection-de-communautes-sous-python.html
Exercice 6
Caractérisation de spams en python dans un jeu de données de SMS
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2016/12/text-minng-categorisation-de-sms-sous.html
Exercice 7
Analyse de tweets avec R
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2017/03/analyse-de-tweets-sous-r.html
Datamining & Dataviz
By Nicolas Rochet
Datamining & Dataviz
Fondamentaux du datamining
- 123