I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets , David Hand
Data Mining is
the nontrivial process of identifying valid, novel,
potentially useful, and ultimately understandable
patterns in data,U.M.Fayyad, G.Piatetski-Shapiro
La fouille de données est l'art d'extraire des connaissances à partir d'un vaste ensemble de données
Visualisation
données
Data story telling
Tableau de bord
Graphiques
Analyse de données
Systèmes d'information
Statistiques
IA
Structures de données
Langages informatiques
Data management
La fouille de données recherche des informations de deux types
Modèles
Patterns
(ou comportements)
Une structure caractéristique qui se manifeste dans un petit nombre d'observations
Un modèle est un résumé global
des relations entre variables, permettant de comprendre des phénomènes, et d’émettre des
prévisions
Une structure caractéristique qui se manifeste dans un petit nombre d'observations
profils
d'utilisateurs/clients/prospects
erreurs de mesures
comportements
caractéristiques
classification
règles d'associations
réduction de dimension
clustering
plongements
Un résumé global des relations entre variables
réseaux de neurones
Support Vector Machine (SVM)
régressions
arbres de décision
réseaux bayésiens
...
linéaire vs non linéaire
explicite vs implicite
prédictif vs exploratoire
Tous les modèles sont faux, certains sont utiles, Georges Box
Les modèles utilisés ne sont pas issus d'une théorie prédéterminée mais de l'exploration de données
Approche "Data-driven"
La métaphore du Data Mining signifie qu’il y a des trésors cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés
Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire d'ensemble de données disponibles mais sous exploitées
Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences, ...)
Utilisé à l'origine par les statisticiens en l'absence
de théories a priori
Essor du Big Data
Evolution des bases de données et infrastructures de donnés (entrepôt de données, lac de données)
Développement de méthodes décisionnelles "data-driven" dans les entreprises: marketing relation client, logistique, ...
Essor de la recherche en Intelligence Artificielle, Extraction de Connaissances, ...
Améliorer la relation client
Recommander des produits/services
'Scoring' de clients
Comprendre le comportement
Trouver de nouveaux modèles
Identifier des profils types
...
Assurance
Science
Web & Média
Grande distibution
Bancaire
analyse de risque
indémnisation automatisée
Détection de fraude
Marketing ciblé
Optimisation rayonage
Le data mining est une "étape" d'un processus général d'information: le Knowledge Discovery in Databases
Sources de données
Fouille de données
Mise en forme des connaissances
Exploitation & Déploiement
Base de données
Entrepôt de donnée
Fichiers
Logiciels
Documents papier
Structuration
Modèles
Connaissances
Enrichissement
catégorielles
quantitatives
continues
discrètes
images
séries temporelles
géographiques
texte
vidéos
entiers
discrètes
continues
...
...
Primaires
entiers
flottants
booléens
références
Abstraites
conteneurs
listes
arrays
tuples
set
piles
files
graphes
Gérer des problèmes d'encodage de caractères (ASCII, Utf8, ...)
Gérer les valeurs abbérantes
Gérer les valeurs manquantes
Formater (tabulaires, JSON, XML, graphes, ...)
Structurer
Enrichir/aggréger
web scraping
open data
slicing
parsing
expressions régulières
...
data streaming
RapidMiner
KNIME
SAS
SPSS
Weka
R
Python
Spark
Matlab
Tableau Software
...
...
Plateformes DataScience SaaS
Orange
Tests et démos de quelques logiciels
http://tutoriels-data-mining.blogspot.com/2016/10/etude-des-logiciels-de-data-science.html
Tutoriel pour mon préféré, le logiciel KNIME
http://marcoghislanzoni.com/blog/2016/04/27/knime-for-beginners-part-1/
Portail du master SISE pour l'initiation a python
http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_python.html
Portail du master SISE pour l'initiation au langage R
http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_R.html
Explorez un jeu de données de vin rouge pour déterminer les caractéristiques d'un bon vin
Apprenez à détection de données abberantes et anormales dans un jeu de donnée
Manipulez des expressions régulières avec R
dataset & informations :
http://tutoriels-data-mining.blogspot.com/2017/01/les-expression-regulieres-sous-r.html
Initiation au text mining avec KNIME et RapidMiner
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2014/04/text-mining-avec-knime-et-rapidminer.html
téléchargements logiciels
Identifier des types de communautés dans des données de type réseau sociaux
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2017/04/detection-de-communautes-sous-python.html
Caractérisation de spams en python dans un jeu de données de SMS
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2016/12/text-minng-categorisation-de-sms-sous.html
Analyse de tweets avec R
dataset & instructions :
http://tutoriels-data-mining.blogspot.com/2017/03/analyse-de-tweets-sous-r.html