Modéliser les données
Trouver des patterns
Résoudre des problèmes
Trouver le plus court chemin
Jouer le meilleur coup
'Simuler' un expert
Identifier des comportements
Détecter des erreurs de mesure
Régression
Classification
Clustering
Statistiques
Simulation
...
IA
Extraire des connaissances
à partir d'un vaste ensemble de données
Les données & méthodes d'analyses sont choisies en fonction du problème
V
S
Modelisation
Résolution de problemes
Recherche de motifs
Statistiques descriptives
Clustering
Gestion des valeurs manquantes
Gestion des outliers
Sélection de features
Quelques étapes génériques
Décrire/résumer des données
...
Statistique descriptive
quantiles
test de comparaisons
corrélation
Indicateurs univariés
Indicateurs mutli variés
mesures de tendeance centrale
Analyse de la covariance
test d'hypotheses
mesures d'erreur
intervalle de confiance
méthode de plongements
Statistique inférentielle
Déduire des renseignements
à partir d'un échantillon ou d'une population
tests d'adéquations à un modèle
statistiques bayésiennes
test d'indépendance
test de comparaisons
test d'hypotheses
mesures d'erreur
intervalle de confiance
Statistique inférentielle
Déduire des renseignements
à partir d'un échantillon ou d'une population
tests d'adéquations à un modèle
L'autre monde: les statistiques bayésiennes
Vérification des données manquantes et outliers
Analyse de distribution de variables
Analyse de tendances: mediane, variance, asymétrie, kurtsosis
Exploration supplémentaire de données par visualisation
...
Comprendre mieux ses données
treemap
barplot
steam graph
nuage de points
violin plot
...
Un résumé des données ne suffit pas pour comprendre ces données !!!
Explorer la relation entre les variable
Calculer la matrice de corrélation entre les variables
Méthodes de réduction de dimension
Rechercher des liens non linéaires: polynomes, ...
...
Linéaire :
Non linéaire :
De plus en plus de paquets permettent une analyse exploratoire plus ou moins automatisée
...
...
Le domaine de la fouille de données recherche des informations de deux types
Une structure caractéristique qui se manifeste dans un petit nombre d'observations
Un modèle est un résumé global
des relations entre variables, permettant de comprendre des phénomènes, et d’émettre des
prévisions
Trouver un résumé global des relations entre variables
...
Modélisation statistique
Modélisation basée sur des règles
régression
classification
Simulations
clustering
réduction dimension
détection d'anomalie
traitement du langage
vision par ordinateur
recommandation
Tous les modèles sont faux, certains sont utiles,
Georges Box
En pratique, l'exploration des données et la connaissance du domaine doivent guider le choix du modèle
N'importe quel algorithme de clustering : kNN, Kmeans
Orientés réseaux de neurones
Trouver une structure caractéristique qui se manifeste dans un petit nombre d'observations
profils
d'utilisateurs/clients/prospects
erreurs de mesures
comportements
caractéristiques
classification
règles d'associations
clustering
Estimation de densité
k-NN
k-Means
1- Décrire mathématiquement un problème précis
2 - Résoudre ce problème par un algorithme
Trouver le plus court chemin
Jouer le meilleur coup
Algorithmes de parcours de graphe
Simuler les décisions d'un expert
Systèmes experts
...
Définir quelles variables garder pour avoir un modèle parcimonieux
Ajustement du modèle
minimiser le nombre de variables
Méthodes linéaires
Analyse en composante principale
Décomposition en valeur singulières
...
...
Isomap
MDS
t-SNE
1 - On définit un critère statistique de qualité de performance
2 - On utilise des algorithmes cherchant à optimiser ce critère
Critère d'Akaike (AIC)
Bayesian Information Criterion (BIC)
Statistique de Mallows
Backward
Forward
Stepwise
Features Permutation
Double intention
feature engineering is another topic which doesn’t seem to merit any review papers or books, or even chapters in books, but it is absolutely vital to ML success. […] Much of the success of machine learning is actually success in engineering features that a learner can understand.
Processus consistant à utiliser la connaissance du domaine pour extraire des features en transformant une partie des données brutes par des méthodes de data mining
Améliorer les performances de vos algorithmes
Rendre le data set plus facilement interprétable (machine et humain)
Scott Locklin, in “Neglected machine learning ideas”
Combiner différents modèles pour obtenir un modèle plus performant
méthodes parallèles
(bagging)
méthodes séquentielles
(boosting)
Stacking / Blending
Evaluer le poids relatif de chaque variable sur les performances
Méthodes agnostiques du modèle
Méthodes spécifiques
classer les coefficients d'une régression
Méthode LIME
Méthode SHAPLEY