Introduction à la

Fouille de données

Nicolas Rochet

2019 - 2020

Activité participative

Quels mots vous évoquent la fouille de données ?

Des définitions

 I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets , David Hand

Data Mining is
the nontrivial process of identifying valid, novel,
potentially useful, and ultimately understandable
patterns in data
,

U.M.Fayyad, G.Piatetski-Shapiro

Définition résumée

La fouille de données est l'art d'extraire des connaissances à partir d'un vaste ensemble de données

Visualisation

données

Data story telling

Tableau de bord

Graphiques

Analyse de données

Systèmes d'information

Statistiques

IA

Structures de données

Langages informatiques

Data management

Modèles vs Patterns

La fouille de données recherche des informations de deux types

Modèles

Patterns
(ou comportements)

Une structure caractéristique qui se manifeste dans un petit nombre d'observations

Un modèle est un résumé global
des relations entre variables, permettant de comprendre des phénomènes, et d’émettre des
prévisions

Patterns

Une structure caractéristique qui se manifeste dans un petit nombre d'observations

Exemples

profils
d'utilisateurs/clients/prospects

erreurs de mesures

...

comportements

caractéristiques

Outils

classification

règles d'associations

...

réduction de dimension

clustering

plongements

Modèles

Un résumé global des relations entre variables

réseaux de neurones

Support Vector Machine (SVM)

régressions

arbres de décision

réseaux bayésiens

...

linéaire vs non linéaire

explicite vs implicite

prédictif vs exploratoire

Exemples

Caractéristiques

Attention aux modèles !

Un modèle reste une approximation de la réalité

Tous les modèles sont faux, certains sont utiles, Georges Box

Les modèles utilisés ne sont pas issus d'une théorie prédéterminée mais de l'exploration de données

Approche "Data-driven"

Attention aux modèles !

Exemple du sur-apprentissage

Quel intérêt ?

La métaphore du Data Mining signifie qu’il y a des trésors cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés

Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire d'ensemble de données disponibles mais sous exploitées

Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences, ...)

Origines & évolutions

Utilisé à l'origine par les statisticiens en l'absence

de théories a priori

Essor du Big Data

Evolution des bases de données et infrastructures de donnés (entrepôt de données, lac de données)

Développement de méthodes décisionnelles "data-driven" dans les entreprises: marketing relation client, logistique, ...

Essor de la recherche en Intelligence Artificielle, Extraction de Connaissances, ...

Cas d'usages

Améliorer la relation client

Recommander des produits/services

'Scoring' de clients

Comprendre le comportement

Trouver de nouveaux modèles

Identifier des profils types

...

Assurance

Science

Web & Média

Grande distibution

Bancaire

analyse de risque

indémnisation automatisée

Détection de fraude

Marketing ciblé

Optimisation rayonage

Data mining et KDD

Le data mining est une "étape" d'un processus général d'information: le Knowledge Discovery in Databases

Sources de données

Fouille de données

Mise en forme des connaissances

Exploitation & Déploiement

Base de données

Entrepôt de donnée

Fichiers

Logiciels

Documents papier

Structuration

Modèles

Connaissances

Enrichissement

Aspects pratiques

Formats & structures de donnés

catégorielles

quantitatives

Types de données

continues

discrètes

images

séries temporelles

géographiques

texte

vidéos

entiers

discrètes

continues

...

...

Structures de données

Primaires

entiers

flottants

booléens

références

Abstraites

conteneurs

listes

arrays

tuples

set

piles

files

graphes

Nettoyage & préparation de données

Gérer des problèmes d'encodage de caractères (ASCII, Utf8, ...)

Gérer les valeurs abbérantes

Nettoyage

Gérer les valeurs manquantes

Préparation

Formater (tabulaires, JSON, XML, graphes, ...)

Structurer

Enrichir/aggréger

web scraping

open data

slicing

parsing

expressions régulières

...

data streaming

Quelques outils

RapidMiner

KNIME

Graphiques

SAS

SPSS

Weka

R

Python

Code informatique

Spark

Matlab

Tableau Software

...

...

Plateformes DataScience SaaS

Orange

Exercices

Annexes

Logiciels pour le data mining

Tutoriel pour mon préféré, le logiciel KNIME

http://marcoghislanzoni.com/blog/2016/04/27/knime-for-beginners-part-1/

Programmation en python

Portail du master SISE pour l'initiation a python

http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_python.html

Programmation sous R

Portail du master SISE pour l'initiation au langage R

http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_R.html

Exercice 1

Explorez un jeu de données de vin rouge pour déterminer les caractéristiques d'un bon vin

Exercice 2

Apprenez à détection de données abberantes et anormales dans un jeu de donnée

Exercice 3

Manipulez des expressions régulières avec R

Exercice 4

Initiation au text mining avec KNIME et RapidMiner

Exercice 5

Identifier des types de communautés dans des données de type réseau sociaux

Exercice 6

Caractérisation de spams en python dans un jeu de données de SMS

Exercice 7

Analyse de tweets avec R

Datamining & Dataviz

By Nicolas Rochet

Datamining & Dataviz

Fondamentaux du datamining

  • 123