...
IMAGES
LANGUAGE
SERIES DE NOMBRES
SONS
METIERS
photos
voix
bruits
avis
commentaires
conversations
météo
capteurs
meta données
site web
applications
logiciels
tweets
ventes
stock
logistique
vidéos
Réseaux sociaux
amis
partages
likes
abonnements
musique
forums
META DONNEES
Catégorielles
Quantitatives
Continues
Discrètes
Ordinales
Nominales
123, 38
123, 39
123, 40
123, 391
123, 392
...
1
2
3
...
10 530
...
...
petite
moyenne
grande
femme
étudiant
grande
...
...
D'apres le cours Introduction to deep learning - MIT
J'apprends comment devenir un data scientist
string qui represénte une partie d'un mot
token de mot
token de partie de mot
racine grammaticale
racine semantique
mot entier
n-grams
groupes de mots
"Le cours de data science est vraiment formidable."
"J'ai apprécié ce cours !"
vecteurs de mots
vecteur de phrase
vecteur de documents
"data"
"science"
API(s)
site web
Données du domaine
logiciels
mails
fichiers
...
forums
reseaux sociaux
pages web
...
Crawling
Scraping
Beautiful Soup
Scrapy
Expressions régulières
Parsing
Parser XML
Parser HTML
ntlk
Collecte de données
Pré-traitements
Traitement
des données
Déploiement
Exploration des données
Modelisation
Identification de pattern
Besoin
Problème à résoudre
Réalité
Communication
Visualisation
Rapport
produit/service
Prise de décisions
données
nettoyées
Algorithmes
Acquérir un échantillon plus représentatif de l'objet d'étude
Améliorer les performances des algorithmes de traitements
Obtenir des données plus pertinentes pour décrire le besoin / problème
Motivations
Méthodes
Statistiques: boostrap
Simulations de données
Retour à la phase d'acquisiiton
Augmentation de données
...
Notion de fluctuation d'échantillonage
Tirage aléatoire
Loi de probabilité
Notion d'échantillon représentatif
intervalle de confiance
distributions
Théorème central limite
...
listes
numpy array
sparsed array
dataFrame (pandas & R)
stack
queue
graphes
set
string
dictionnaries
tuple
Génériques
Spécifiques
booleen
Types ou formats de données
Structure de données
attributs des données
permet d'accéder et de modifier efficacement une donnée
{ valeurs, relations, opérations } sur les données
interpréteur <--> programmeur
listes
numpy array
set
string
tuple
booleen
sparsed array
stack
queue
graphes
...
"standard" définissant la manière dont l'information (bits) est encodée dans un fichier informatique
json
xml
csv
tsv
html
Ouverts
mp3
ogg
jpeg
...
avi
Propriétaires
ppt
xls
docx
...
doc
key
Entre les structures simples et bases de données ...
Souvent utiles quand la volumétrie est grande mais les contraintes externes plus faibles
Exemple :
Formatée selon une structure prédéterminée
Ex: tableur, code barre
Caractéristiques
Traitement algorthmique et humain facilité
Stockée dans son format d'origine
Caractéristiques
Taux d'accumulation plus rapide
Structure figée prévue à l'avance
Adaptables à plus de cas d'usage
Necessitent des compétences pour etre préparées
Ex: fichier pdf, fichier audio
Données proches des non structurées mais qui possèdent quelques éléments de structure et/ou des métadonnées
Pouvoir faire des recherche et analysess plus efficacement qu'avec des données strictement non structurées
Ex : un mail
un ensemble de données reliées entre elles et la manière dont elle sont organisées
SQL
Relationnelles
MySQL
PostgreSQL
...
SQLite
NoSQL
Non relationnelles
Neo4j
MongoDB
...
influxDB
orientée embedding
Entrepot de données
Lac de données
BIG DATA
DATA SETS
SMALL DATA
disque dur
serveurs
stockage
NAS
collection de fichiers
HDF 5
Base de données
Structures de donnée
data mesh
Efficace pour stocker, gérer et traiter les données structurées
Structurer des données de multiples sources sous forme de bases de données relationnelles
Requetes rapides
Schéma figé, peu évolutif
Stocker de gros volumes de données brutes et hétérogènes dans leur format natif (non structurées)
Accessibilité des données accrue
Requetes plus lentes
Bases de données NoSQL
Plus scalable
Populaire pour la datascience et l'IA
Architecture de données décentralisée qui organise les données par domaine d'activité spécifique
Approche socio-technique : transférer la propriété des données à ses producteurs
implique un changement culturel dans la façon dont les entreprises perçoivent leurs données
Chaque domaine organise la gouvernance de ses données
Incite au cloud nativement
Des services pour assurer une interopérabilité des domaines
Architecture évolutive
Entrepot de données
Lac de données
API(s)
Ecosystème Hadoop
Ecosystème blaze
Stockage distribué
Calcul distribué
Gestionnaire de clusters
BIG DATA
Structures de données
composants de gestion
+
Base de données