Data Science:
Collecte et Structuration de données
Nicolas Rochet
2023
Collecte de données
Différents types de données
...
IMAGES
LANGUAGE
SERIES DE NOMBRES
SONS
METIERS
photos
voix
bruits
avis
commentaires
conversations
météo
capteurs
meta données
site web
applications
logiciels
tweets
ventes
stock
logistique
vidéos
Réseaux sociaux
amis
partages
likes
abonnements
musique
forums
META DONNEES
Les types classiques
Catégorielles
Quantitatives
Continues
Discrètes
Ordinales
Nominales
123, 38
123, 39
123, 40
123, 391
123, 392
...
1
2
3
...
10 530
...
...
petite
moyenne
grande
femme
étudiant
grande
...
...
Representation numerique des images


D'apres le cours Introduction to deep learning - MIT
Encoder une donnée textuelle
J'apprends comment devenir un data scientist
La tokenisation
string qui represénte une partie d'un mot
token de mot
token de partie de mot
racine grammaticale
racine semantique
mot entier
n-grams
groupes de mots
Exemple du word embedding
"Le cours de data science est vraiment formidable."
"J'ai apprécié ce cours !"
vecteurs de mots
vecteur de phrase
vecteur de documents
"data"
mots
phrases
documents
embedding


"science"
Où trouver les données ?
API(s)
site web
Données du domaine
logiciels
mails
fichiers
...
forums
reseaux sociaux
pages web
...
Crawling
Scraping
Beautiful Soup
Scrapy
Expressions régulières
Parsing
Parser XML
Parser HTML
ntlk
Collecte de données
Pré-traitements
Traitement
des données
Déploiement
Exploration des données
Modelisation
Identification de pattern
Besoin
Problème à résoudre
Réalité
Communication
Visualisation
Rapport
produit/service
Prise de décisions
données
nettoyées
Algorithmes
Acquisition de données
Enrichissement de données
Acquérir un échantillon plus représentatif de l'objet d'étude
Améliorer les performances des algorithmes de traitements
Obtenir des données plus pertinentes pour décrire le besoin / problème
Motivations
Méthodes
Statistiques: boostrap
Simulations de données
Retour à la phase d'acquisiiton
Augmentation de données
...
Les maths dont vous aurez besoin
Echantillonnage
Notion de fluctuation d'échantillonage
Tirage aléatoire
Loi de probabilité
Notion d'échantillon représentatif
intervalle de confiance
distributions
Théorème central limite
...
Structuration des données
Structures simples
listes
numpy array
sparsed array
dataFrame (pandas & R)
stack
queue
graphes
set
string
dictionnaries
tuple
Génériques
Spécifiques
booleen
Types vs structures
Types ou formats de données
Structure de données
attributs des données
permet d'accéder et de modifier efficacement une donnée
{ valeurs, relations, opérations } sur les données
interpréteur <--> programmeur
listes
numpy array
set
string
tuple
booleen
sparsed array
stack
queue
graphes
...
Type vs structures

Formats de fichiers
"standard" définissant la manière dont l'information (bits) est encodée dans un fichier informatique
json
xml
csv
tsv
html
Ouverts
mp3
ogg
jpeg
...
avi
Propriétaires
ppt
xls
docx
...
doc
key
Structures intermédiaires
Entre les structures simples et bases de données ...
Souvent utiles quand la volumétrie est grande mais les contraintes externes plus faibles
Exemple :
Données structurées ?
Non structurées
Structurées
Formatée selon une structure prédéterminée
Ex: tableur, code barre
Caractéristiques
Traitement algorthmique et humain facilité
Stockée dans son format d'origine
Caractéristiques
Taux d'accumulation plus rapide
Structure figée prévue à l'avance
Adaptables à plus de cas d'usage
Necessitent des compétences pour etre préparées
Ex: fichier pdf, fichier audio
Un intermédiaire
Semi structurées
Données proches des non structurées mais qui possèdent quelques éléments de structure et/ou des métadonnées
Pouvoir faire des recherche et analysess plus efficacement qu'avec des données strictement non structurées
Ex : un mail
des bases de données
un ensemble de données reliées entre elles et la manière dont elle sont organisées
SQL
Relationnelles
MySQL
PostgreSQL
...
SQLite
NoSQL
Non relationnelles
Neo4j
MongoDB
...
influxDB
orientée embedding
... aux systèmes de management de la données
Entrepot de données
Lac de données
BIG DATA
DATA SETS
SMALL DATA
disque dur
serveurs
stockage
NAS
collection de fichiers
HDF 5
Base de données
Structures de donnée
data mesh
Les paradigmes de bases de données
Data warehouse
Efficace pour stocker, gérer et traiter les données structurées

Structurer des données de multiples sources sous forme de bases de données relationnelles
Requetes rapides
Schéma figé, peu évolutif
Data lake

Les paradigmes de bases de données
Stocker de gros volumes de données brutes et hétérogènes dans leur format natif (non structurées)
Accessibilité des données accrue
Requetes plus lentes
Bases de données NoSQL
Plus scalable
Populaire pour la datascience et l'IA
Data mesh
Architecture de données décentralisée qui organise les données par domaine d'activité spécifique
Les paradigmes de bases de données
Approche socio-technique : transférer la propriété des données à ses producteurs
implique un changement culturel dans la façon dont les entreprises perçoivent leurs données
Data mesh

Chaque domaine organise la gouvernance de ses données
Incite au cloud nativement
Des services pour assurer une interopérabilité des domaines
Architecture évolutive
Les cas du big data
Entrepot de données
Lac de données
API(s)
Ecosystème Hadoop
Ecosystème blaze
Stockage distribué
Calcul distribué
Gestionnaire de clusters
BIG DATA
Structures de données
composants de gestion
+
Base de données