Data Science:

Collecte et Structuration de données

Nicolas Rochet

2023

Collecte de données

Différents types de données

...

IMAGES

LANGUAGE

SERIES DE NOMBRES

SONS

METIERS

photos

voix

bruits

avis

commentaires

conversations

météo

capteurs

meta données

site web

applications

logiciels

tweets

ventes

stock

logistique

vidéos

Réseaux sociaux

amis

partages

likes

abonnements

musique

forums

META DONNEES

Les types classiques

Catégorielles

Quantitatives

Continues

Discrètes

Ordinales

Nominales

123, 38

123, 39

123, 40

123, 391

123, 392

...

1

2

3

...

10 530

...

...

petite

moyenne

grande

femme

étudiant

grande

...

...

Representation numerique des images

Encoder une donnée textuelle

J'apprends comment devenir un data scientist

La tokenisation

string qui represénte une partie d'un mot

token de mot

token de partie de mot

racine grammaticale

racine semantique

mot entier

n-grams

groupes de mots

Exemple du word embedding

"Le cours de data science est vraiment formidable."

"J'ai apprécié ce cours !"

\begin{bmatrix} 0.22 \\ 1.35 \\ ...\\ 5.12 \\ \end{bmatrix}

vecteurs de mots

vecteur de phrase

vecteur de documents

"data"

\begin{bmatrix} 5.78 \\ 9.54 \\ ...\\ 0.12 \\ \end{bmatrix}

 mots

phrases

documents

embedding

"science"

Où trouver les données ?

API(s)

Open Data

kaggle

plateformes open data

...

IMDB

site web

Données du domaine

logiciels

mails

fichiers

...

forums

reseaux sociaux

pages web

...

Crawling

 Scraping

Beautiful Soup

Scrapy

Expressions  régulières

Parsing

Parser XML

Parser HTML

ntlk

Collecte de données

Pré-traitements

Traitement
des données

Déploiement

Exploration des données

Modelisation

Identification de pattern

Besoin

Problème à résoudre

Réalité

Communication

Visualisation

Rapport

produit/service

Prise de décisions

données

nettoyées

Algorithmes

Acquisition de données

Enrichissement de données

Acquérir un échantillon plus représentatif de l'objet d'étude

Améliorer les performances des algorithmes de traitements

Obtenir des données plus pertinentes pour décrire le besoin / problème

Motivations

Méthodes

Statistiques: boostrap

Simulations de données

Retour à la phase d'acquisiiton

Augmentation de données

...

Les maths dont vous aurez besoin

Echantillonnage

Notion de fluctuation d'échantillonage

Tirage aléatoire

Loi de probabilité

Notion d'échantillon représentatif

intervalle de confiance

distributions

Théorème central limite

...

Structuration des données

Structures simples

listes

numpy array

sparsed array

dataFrame (pandas &  R)

stack

queue

graphes

set

string

dictionnaries

tuple

Génériques

Spécifiques

booleen

Types vs structures

Types ou formats de données 

Structure de données 

\ne

attributs des données

permet d'accéder et de modifier efficacement une donnée

{ valeurs, relations, opérations } sur les données

interpréteur <--> programmeur

listes

numpy array

set

string

tuple

booleen

sparsed array

stack

queue

graphes

...

Type     vs    structures

Formats de fichiers

"standard" définissant la manière dont l'information (bits) est encodée dans un fichier informatique

pdf

json

xml

csv

tsv

html

Ouverts

mp3

ogg

jpeg

...

avi

Propriétaires

ppt

xls

docx

...

doc

key

Structures intermédiaires

Entre les structures simples et bases de données ...

Souvent utiles quand la volumétrie est grande mais les contraintes externes plus faibles

Exemple :

Données structurées ?

Non structurées

Structurées

Formatée selon une structure prédéterminée

Ex: tableur, code barre

Caractéristiques

Traitement algorthmique et humain facilité

Stockée dans son format d'origine

Caractéristiques

Taux d'accumulation plus rapide

Structure figée prévue à l'avance

Adaptables à plus de cas d'usage

Necessitent des compétences pour etre préparées

Ex: fichier pdf, fichier audio

Un intermédiaire

Semi structurées

Données proches des non structurées mais qui possèdent quelques éléments de structure et/ou des métadonnées

Pouvoir faire des recherche et analysess plus efficacement qu'avec des données strictement non structurées

Ex : un mail

des bases de données

un ensemble de données reliées entre elles et la manière dont elle sont organisées

SQL

Relationnelles

MySQL

PostgreSQL

...

SQLite

NoSQL

Non relationnelles

Neo4j

MongoDB

...

influxDB

orientée embedding

... aux systèmes de management de la données

Entrepot de données

Lac de données

BIG DATA

DATA SETS

SMALL DATA

disque dur

serveurs

stockage

NAS

collection de fichiers

HDF 5

Base de données

Structures de donnée

data mesh

Les paradigmes de bases de données

Data warehouse

Efficace pour stocker, gérer et traiter les données structurées

Structurer des données de multiples sources sous forme de bases de données relationnelles

Requetes rapides

Schéma figé, peu évolutif

Data lake

Les paradigmes de bases de données

Stocker de gros volumes de données brutes et hétérogènes dans leur format natif (non structurées)

Accessibilité des données accrue

Requetes plus lentes

Bases de données NoSQL

Plus scalable

Populaire pour la datascience et l'IA

Data mesh

Architecture de données décentralisée qui organise les données par domaine d'activité spécifique

Les paradigmes de bases de données

Approche socio-technique :  transférer la propriété des données à ses producteurs

implique un changement culturel dans la façon dont les entreprises perçoivent leurs données

Data mesh

Chaque domaine organise la gouvernance de ses données

Incite au cloud nativement

Des services pour assurer une interopérabilité des domaines

Architecture évolutive

Les cas du big data

Entrepot de données

Lac de données

API(s)

Ecosystème Hadoop

Ecosystème blaze

Stockage distribué

Calcul distribué

Gestionnaire de clusters

BIG DATA

Structures de données

 composants de gestion

+

Base de données