Découverte:

Les métiers de la data & de l'IA

Nicolas Rochet

Qui suis-je ?

Data for Good

Activité participative

Quels mots vous évoquent la Science des Données ?

Connectez vous pour participer:

https://app.wooclap.com/EAXUBQ

Définition résumée

Mathématiques

Informatique

"Domain

knowledge"

Discipline utilisant des méthodes scientifiques, algorithmes et systèmes d'information pour extraire des connaissances à partir de données structurées ou non structurées

Science de l'information

Différents types de données

...

IMAGES

LANGUAGE

SERIES DE NOMBRES

SONS

METIERS

photos

voix

bruits

avis

commentaires

conversations

météo

capteurs

meta données

site web

applications

logiciels

tweets

ventes

stock

logistique

vidéos

Réseaux sociaux

amis

partages

likes

abonnements

musique

forums

META DONNEES

... aux Méga Données

Les 3V du Big Data

Volume

Variété

Vélocité

Traiter de grandes quantités de données

Traiter ces données avec une grande vitesse

Traiter de sources de données variées

technologies permettant de produire, collecter, stocker, structurer, accéder, et présenter des données digitales

BIG DATA

DATA SETS

SMALL DATA

Deux ingédients principaux

Données

Algorithmes

serie non ambigüe d'instructions

+

représentation informatique d'une information

Problème

Résultats

Traitements

L'essor du monde de la donnée

Le marché de la donnée

L'explosion des données

8

40

200

world data consumtion (Zb)

2015

2025

2020

1~Zb = 10^{21}b

... et ses conséquences

Risques

Bénéfices

Coût écologique

Impact sociétal

Dépendance aux outils

Assistance de l'humain

Gain de temps

Innovation

Dans la peau d'un praticien de la donnée

Ses missions

Collecter la donnée

Exploiter la donnée

Résoudre un problème

Communiquer ses conclusions

Expliquer un phénomène

Découvrir des tendeances

Structurer la donnée

Traduire un besoin

Data Scientist ?

Mathématiques

Informatique

Un data scientist est meilleur en mathématiques qu'un informaticien et meilleur en informatique qu'un mathématicien

Intelligence Artificielle

Algorithmes

Code

Calcul

Statistiques

Probabilités

Infrastructure de données

Algèbre linéaire

Modelisation

Mathématiques

Statistiques

Probabilités

Algèbre

Analyse

tendance centrale

Probabilité conditionnelle

Fonctions

Optimisation

Variables

Equations

Visualisations

covariance

modelisation

Théorème de Bayes

corrélation

Espace vectoriel

Plongement

Calcul matriciel

Distributions

Echantillonage

Tests d'hypothèses

intervalle de confiance

Théorème central limite

régularisation

Differentielles

...

Informatique

Systèmes d'information

Calcul

Programmation

Algorithmes

Structures de données

Langages

Base de données

CPU

GPU

TPU

Frameworks

Bonnes pratiques

Controle de version

Terminal

Conteneur

Orchestrateur

Cloud computing

Machine virtuelle

Automatisation

tests

pipeline

Des compétences variées à maitriser

Dans la peau d'un data scientist

from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
              [10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
kmeans.labels_

kmeans.predict([[0, 0], [12, 3]])

Code

Logiciels

KNIME

R

Python

Jupyter notebooks

Tableau Software

Logiciels & Platformes

SAP

Microsoft Power BI

Hadoop

Plateforme SaaS

Scikit learn

Tensorflow

Pandas

ERP

Data management

Déploiement

SQL

No-SQL

Data warehouse

Data lake

Databases

Data structures

ETL

Exploration & Visualisation

CRM

Sales force

...

Big Data

Stockage distribué

Calcul distribué

Code

Dev Ops

Git

assistant code

Pipelines

Conteneurs

API

Modeles pré entraines

Hugging Face

Une veille permanente

Plateformes

...

Blogs & portails

Articles scientifiques

Cours & livres

Wikipedia

Langages

& Logiciels

Les métiers

Le data scientist : le couteau suisse de la data ?

Les principaux métiers de la data

Une evolution vers 3 grand types de métiers

Les principaux métiers de la data

Specialiste en Data Visualisation

Data analyste

Prepare et explore les données

Répond à une problématique par des analyses

Communique l'information

(data visualisations, tableaux de bord)

Les principaux métiers de la data

Ingénieur IA

Data scientist

Elabore des modèles pour traiter les données

Recherche & applique des algorithmes pour résoudre des problèmes

Interprète et surveille la pertinence des résultats

vision par ordinateur

traitement du langage

Machine Learning

Les principaux métiers de la data

Data Ingénieur

Data Architecte

Récolte les données

Structure les données pour les rendre accessibles

Met en place des outils d'automatisation

Déploie les modèles & algorithmes

Métiers plus orientés informatique

Métiers impliqués dans un projet

Etapes projet

Chercheur

Ingénieur IA

Data visualiseur

Communiquant

Data Analyste

Data Architecte

Data Manager

Data Scientiste

Decideurs

Ethicien

DPD

Chef de projet

Data ingénieur

Designer

Mini jeu:

Quels métiers pour quel cas d'usage ?

Compétences nécessaires

Cas d'usage n° 1

Une grande entreprise veut centraliser les données pour les rendre exploitables par différents services (compabilité, marketing, R&D, ...)

Récolter les données provenant de différentes sources (mails, documents, photos, ...)

Structurer les données dans des bases de données pour les rendre accessibles

Data architecte

Compétences nécessaires

Cas d'usage n° 2

Une association veut mesurer et communiquer sur l'utilisation des vélos en ville

Analyser des données déja structurée

Faire des graphiques et savoir les expliquer à un public non expert

Data analyst

Compétences nécessaires

Cas d'usage n° 3

Une entreprise de vidéo à la demande veut pour recommander les vidéos les plus adaptées à chaque utilisateur

Utiliser des outils pour automatiser le traitement et la récommandation à donner quand l'utilisateur veut choisir une vidéo

Data scientist

 Data ingénieur

Mettre en place des algorithmes de recommandation qui prennent en compte les caractéristiques des utilisateurs

Compétences nécessaires

Cas d'usage n° 4

L'association Open Food Fact veut aider les utilisateurs à catégoriser automatiquement des produits alimentaires à partir de leurs photos

Utiliser des modèles pour prédire le type du produit

Data scientist

Mettre en place des algorithmes pour extraire les données des photos (nom du produit, ingrédients, ...)

Comment mener un projet data ?

Deux approches

Fouille de données

Analyses dirigées

Extraire des connaissances

à partir d'un vaste ensemble de données

Les données & méthodes d'analyses sont choisies en fonction du problème

V

S

Les étapes d'un projet data

Déployer &

mettre en production

Structurer les données

Principes d'éthiques

Etude du besoin

Auditer les données

Veille scientifique et technique

Implémenter

algorithmes & modèles

Packaging du code

Livraison

Rapport

Communiquer

Procesus de traitement

Collecte de données

Préparation de donnes

Traitement
des données

Déploiement

Exploration des données

Modelisation

Identification de pattern

Besoin

Problème à résoudre

Réalité

Communication

Visualisation

Rapport

produit/service

Prise de décisions

données

nettoyées

Algorithmes

Le cycle de vie d'un logiciel

 Adopter les principes d'ethic-by-design !

idée

definition

du

projet

Preuve

de

Concept

développement & déploiement

retours

utilisateur

veille éthique

Intégration & Déploiement continu (CI/CD)

Quelques cas d'usages

Rapports d'analyse

Raconter une histoire avec les données

Panneau de bord

Logiciel ou application

Rapports d'analyse

Raconter une histoire avec les données

Panneau de bord

Logiciel ou application

Indicateurs décisionnels

Extraction de données

...

Journaux en ligne

Des plateformes d'experts

de la donnée

Des sites de visualisation de données sociétales

Moteurs de recherche

GPS

Matching

Système de recommandation

Assistants personnels

IA génératives

Des exemples de réalisations

Rapports d'analyse

Raconter une histoire avec les données

le site

Statista

Panneau de bord

...

Des exemples de réalisations

Logiciel ou application

...

Des exemples de réalisations

Pour les praticiens & experts

La plateforme

Kaggle

...

Le site

data-to-viz

Qui utilise la data science ?

Les employeurs dans la data science

Les organisations & la data science en 2021

Quelques résultats intéressants

Une partie des organisations n'ont pas adopté la data science et l'IA !

L'adoption passe par un changement de culture dans l'organisation

Il y a des niveaux d'adoptions très variables dans les organisations

Le challenge de la gouvernance des données

Stratégie & procédures relative à la gestion des données, ses flux, ses accès, son stockage, sa consommation

Exemple du paradigme diu data mesh

Chaque domaine organise la gouvernance de ses données

Des services pour assurer une interopérabilité des domaines

Architecture évolutive

Activité

Imaginez un projet utilisant la science des données

Quelles données ?

Le problème

L'idée de solution

La tâche

Quels impacts ?

Quel rendu ?

Connectez vous pour participer: www.wooclap.com/NZLEBL

Science des données

Intelligence Artificielle

+

Activité participative

Quels mots vous évoquent l'Intelligence Artificielle ?

Connectez vous pour participer:

https://app.wooclap.com/EAXUBQ

Intelligence Artificielle ?

L'étude et le design d'agents intelligents

Meilleure
que le hasard

Autant qu'un humain

Performances

Programmes

Une définition

Ensemble de théories et techniques qui confèrent à des machines la capacité d'accomplir des tâches attribuées aux être intelligents

4 définitions

'Agir' comme un humain

'Agir' rationnellement

'Réfléchir' rationnellement

'Réfléchir' comme un humain

The automation of activities that we associate with human thinking, activities such as decision making, problem sloving, learning, ...
Bellmann, 1978

The art of creating machines that perform functions that require intelligence when performed by people.
Kurzweil 1990

Computationnal Intelligence is the study of the design of intelligents agents .
Poole et al. 1998

The study of mental faculties through the use of computationnal models
Charniak & Mc Dermott, 1985

Une brève histoire de l'IA

50-56

 >2011

93-2011

87-93

80-87

74-80

56-74

Naissance

de l'IA

1er hiver

L'age d'or

2e age d'or

2e hiver

maturité

discrète

Essor du

Deep Learning

Disciplines de l'IA

Jouez contre une IA

Le jeu : deviner le personnage qui a été choisi en secret

VS

Votre groupe

Quels algorithmes se cache derrière Akinator ?

Il s'agit d'un système expert !

une base de connaissances

un ensemble de règles

un moteur d'inférence

Les composantes d'un système expert:

L'ère de l'apprentissage automatique

Machine learning

Deep learning

50-56

 >2011

93-2011

87-93

80-87

74-80

56-74

IA symbolique

Système expert

Deep learning

IA générative

Définition

L'apprentissage automatique est un champ de l'Intelligence Artificielle utilisant des méthodes statistiques pour donner aux ordinateurs la capacité d'apprendre (c.a.d augmenter leur performance sur une tâche donnée) à partir des données, sans avoir été explicitement programmé pour résoudre cette tâche

Traduit de la définition d'Arthur Samuels (source : Wikipedia)

Catégories d'apprentissage

Apprentissage supervisé

Apprentissage auto-supervisé

Apprentissage non supervisé

Apprentissage par renforcement

Apprentissage par transfert

Apprentissage semi-supervisé

Apprentissage supervisé

Principe :
trouver la règle générale qui relie données et labels

Classification

Régression

linéaire

logistique

polynomiale

Prédire une série temporelle

Apprentissage non supervisé

Exemple :
Former des groupes ou partitions (clustering)

Illustration du clustering

Détection d'anomalies

Apprentissage par renforcement

Principe :
Un agent apprend les actions à realiser sur son environnement en maximisant une récompense

Apprentissage auto supervisé

Exemple avec le traitement de séquence

A l'origine des General Langage Model !

l'ère du deep learning

Les réseaux de neurones profonds

humains

artificiels

Le succès du deep learning

3 raisons principales

L'essor des méga données ou Big Data

L'augmentation de la puissance de calcul des ordinateurs

Les progrès récents de la recherche

... et ses défauts

Repose souvent sur des données labellisées (apprentissage supervisé)

Nécessite souvent beaucoup de données

Leurs "décisions" sont difficilememt interprétables

2017

2020

2019

2018

CoVE

BERT

ELMo

T5

vers les Large Langage Models

CVT

ULMFiT

GPT

CamenBERT

FlauBERT

ALBERT

RoBERTa

GPT-3

ELECTRA

XLNet

BART

GPT-4

Bard

> 2023

...

LLama 3

'Blind test' de Turing

Ces créations sont elles dues à un humain ou une machine ?

'Blind test' de Turing

Ces créations sont elles dues à un humain ou une machine ?

MACHINE

'Blind test' de Turing

Ces créations sont elles dues à un humain ou une machine ?

HUMAIN

Autoportrait par Rembrandt

'Blind test' de Turing

Ces créations sont elles dues à un humain ou une machine ?

MACHINE

IA de microsoft
projet The Next Rembrandt

'Blind test' de Turing

Ces créations sont elles dues à un humain ou une machine ?

MACHINE

'Blind test' de Turing

Ces créations sont elles dues à un humain ou une machine ?

HUMAIN

Allen Ginsberg

That tree said
I don't like that white car under me,
it smells gasoline
That other tree next to it said
O you're always complaining
you're a neurotic
you can see by the way you're bent over

Source: http://botpoet.com/

'Blind test' de Turing

Ces créations sont elles dues à un humain ou une machine ?

MACHINE

Généré par Racter

A crow is a bird, an eagle is a bird, a dove is a bird.
They all fly in the night and in the day. They fly when the sky is red and when the heaven is blue. They fly through the atmosphere. We cannot fly. We are not like a crow or an eagle or a dove.
We are not birds. But we can dream about them. You can.

Source: http://botpoet.com/

IA génératives &

Large Langage Models

Le succes des IA génératives

Un fort engouement de la recherche, du public et des entreprises

Le succes des IA génératives

Ces IAs deviennent de plus en plus utilisées

En interne dans les organisations, pour automatiser des tâches

Des entreprises qui vendent des services utilisant ces IAs

Intégrées dans des logiciels grand publics

 IAs génératives ?

Depuis quelques années les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes

Des images

vidéos

dessins

illustrations

photo realistes

...

Du texte

Code

paragraphes

questions / réponses

Listes

résumés

...

Les Large Language Models (LLM)

Des sons

voix

musique

...

"Raisonnement"

Traduction

Résoudre des problèmes mathématiques

Résumer du texte

Répondre à des questions

des IAs aux capacités multi-tâches

Conduire un véhicule

Analyse de sentiments

De très gros réseaux de neurones

Entrainés très longuement sur des jeux de données gigantesques ...

... à prédire chaque prochain token d'un texte

Le réseau apprend des représentations complexes (embeding)

Exemple simplifié de la génération de texte

Conception & Entraînement

"L'apprentissage automatique est une branche de l'IA

 Bonnes capacités de généralisation

image reseau neuroneCreated by Mohamed Mbfrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

Le réseau entrainé a appris des représentations généralisables

Exemple simplifié de la génération de texte

Inférence

Génération de texte token par token

Ré-entrainement sur des données spécifiques

Sélectionner un ensemble de documents à donner en contexte

Noun_Project_50Icon_10px_grid Created by Yana Sapeginafrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

fine tuning

 En tant qu'expert de la data science programmant en python ...

contexte : prompt

Retrieval Augmented Generation

+

IAs génératives de texte

GPT-4

Generative Pre-trained Transformer

Palm 2

Pathway Langage Model

Llama 2

Large Langage Model Meta AI

Les modèles de fondation fermés (les plus connus)

Démos

Interface de chat plus intuitive mais moins paramétrable

Interface plus paramétrable

IAs génératives de texte

Les modèles de fondation ouverts (les plus connus)

Falcon

Claude

Mixtral

Mixture of Models

Llama 3

Large Langage Model Meta AI

IAs génératives d'images

Leurs capacités

Inpainting

Outpainting

Image-to-image

Prompt-to-image

Modifier l'intérieur d'une image

Etendre l'extérieur d'une image

Générer un image à partir d'une image

Générer un image à partir d'une instruction textuelle

IAs génératives d'images

DALL-E

Stable diffusion

MidJourney

Les plus connues

Démos

(crédits payants uniquement)

...

(crédits gratuits & payants)

(crédits payants uniquement)

IAs génératives d'images

IA génératives de sons

Exemple : Stable audio

Générer du son à partir d'une instruction texte (prompt)

IA génératives de sons

Stable audio

Description & démo

Promesses & dangers

Les IAs génératives suscitent des avis souvent polarisés

Promesses & dangers

Des implications dans différents domaines de la société

Juridique

Professionnel

Ecologique

Social

Informationnel

...

Quelques propositions

Connaissez vous des cas d'usages ?

Connectez vous pour participer:

app.wooclap.com/TTKMSO

Activité participative

Quelques domaines métiers

INDUSTRIE

FINANCE

COMMERCE

MEDECINE

ARTISTIQUE

MEDIA

TRANSPORT

...

Maintenance

prédictive

Robots

Gestion de flux

Scoring de crédit

Détection de fraude

Trading automatique

Marketing prédictif

Analyse de sentiment

Découverte de traitements

Prédictions de succès ou récidive

Anticipation de pannes

Robots cuisiniers

Robots

Design génératif

Synthèse de sons

Synthèse d'image

Gestion de ressources

Aide au diagnostic

Véhicules autonomes

Résumé automatique

Ecriture automatique

Recommandation de produits

Recommandation de

contenus

légendage

Quelques domaines d'applications

Traitement de
l'image et du son

Traitement

du

langage naturel

Systèmes de

recommandation

Systèmes

prédictifs

Aide à la

décision

Robotique

Optimisation

& planification

Systèmes

de

recommandations

Produits / Services

Contenu

Personnes

Parcours

Evénements

...

Systèmes

prédicifs

Données

catégorielles

Données

spatio-temporelles

Météo

Pollution

...

Trafic

Age

Sexe

Données

physiologiques

Molécules

Données

avec des caractéristiques

Pannes

Aide à la

décision

Aide au
diagnostic

Détection

d'anomalie

Maintenance prédictive

Segmentation profils

Matching

Identifier des tendances

...

Flotte de véhicules

Optimisation & planification

Jeux

Poker

Echecs

Go

Shogi

Dota 2

Starcraft 2

Chaîne de

montage

Gestion de ressources

Matériel

Humains

Supply chain

Optimisation et planification

AlphaZero de DeepMind

OpenAI Bot pour Dota 2

Traitement de
l'image et du son

Description

d'une scène visuelle

Identification des objets

d'une scène visuelle

Colorisation d'images

Détection de pose

Transfert de style

Synthèse de sons

Capture de mouvements

Amélioration de photos

...

Reconnaître et décrire une scène visuelle

Identification des objets

d'une scène visuelle

Description

d'une scène visuelle

colorisation

Modifier une image/vidéo

Corriger des anomalies dans l'image

Image & video in painting

 ...

super resolution

améliorer la résolution d'une image (super resolution)

transfert de style (2015)

Modifier le style dans une image/vidéo

transfert de style vidéo et sur les simulation (2019)

Modifier une image/vidéo

... avec des intentions très discutables

Appliquer une perturbation à l'image pour la manipuler

... voire potentiellement dangereuses

Le trucage par les "deep fake"

ces mêmes méthodes peuvent aussi détecter les deep fake

Retouche & modification d'images

Retouches d'images avec Open AI Glide

Edition paramétrable de photos avec StyleFlow

Générer de l'image

Design génératif (Dream Catcher)

Générer des visages

(NVIDIA face generator)

dessin d'images réalistes

Dessiner une image réaliste à partir d'une ébauche

... et de videos

Changer l'exposition lumineuse d'une vidéo

(Google AI)

Edition de vidéos

Capture de poses et mouvements

Motion capture - Radical

Motion capture dans les vidéos

simulations réalistes deformables

Déformer des simulations en temps réel

génerer des environnements virtuels

Générer du son

... ou copier une voix !

Copier une voix à partir de 5 sec d'enregistrement !

Traitement

du

langage naturel

Synthèse vocale

Reconnaissance
du locuteur

Résumé

Traduction

Sous titrage

Synthèse de texte

Agents conversationnels

...

Reconnaissance
vocale

Analyse sémantique

Ecrire des ouvrages

Générer de la voix

synthèse vocale multi langue

Robotique

Robot Nao

Robot simulateur de patient Pediatric HAL

Robotique

Robot chirurgien

Shademan et al., 2016

Robots kiva

IA vs Humain ?

Les progrès de ses dernières années en IA sont impressionnants !

MAIS on est encore loin d'une Intelligence Artificielle Générale ou d'une Intelligence humaine

Extrait du film Terminator

Extrait du film

Ex Machina

Extrait du film Her

Impacts et enjeux de l'IA

Société

Organisations

Individus

Nuisance écologique

Suppression d'emplois

Induire ou renforcer des inégalités

Invasion de la

vie privée

risques

progrès

Faible prise de conscience

Risque de

dépendance technologique

Amélioration des

conditions de travail

Amélioration du niveau de vie

Assistance de l'humain

Résoudre des problèmes systémiques

Accompagner les progrès de la science

Enjeux éthiques

L'impact environnemental des IAs

Des applications de l'IA parfois "maladroites" voire malveillantes

Fiabilité de l'info & Désinformation

Biais & Discriminations
Droits d'auteurs

Les impacts sociétaux des IAs

Energie du stockage & calcul

Recyclage de l'informatique

...

Pistes de solutions ?

Nécessité d'encadrer l'IA par de l'éthique

Envisager l'IA comme un compagnon de l'Humain plutôt qu'un remplaçant

réduire les biais dès le départ : ethic by design

Avoir un usage sobre & raisonné

Principes d'IA responsable

Respect de la vie privée

Methodologie & code transparents

Modèles interprétables

Stockage et entrainement

Impact sur les utilisateurs

Bias dans les données &

modéles

Frugale

Transparente

Equitable

Expliquable

Données accessible

Empreinte écologique

Inférence pour un grand nombre

Intitiatives pour une
IA plus éthique

Principes

From november 2017

Proposition

...

10 propositions pour une IA innovante et fiable

Conseils pratiques

Praticiens : Appliquer l'IA responsable

Assurer la confidentialité

Privilégier données et modèles ouverts

Privilégier des modèles interprétables

Mesurer les impacts de la solution

Surveiller les biais dans les données et modèles

Frugale

Transparente

Equitable

Expliquable

Mesurer l'impact de sa chaine de traitement

Utiliser des outils pour rendre les modèles interprétables

Régulations

in application since May 2018 !

AI systems will be classified as 4 levels of risks for users

applicable in 2025

Inacceptable

High

Limited

Minimal

IAs considérées comme une menace

ayant un impact négatif

8 domaines sensibles

IAs génératives

celles qui respectent la vie privée

devront être enregistrée à l'UE

services en ligne, recommandations, ...

IA des jeux vidéos, anti spam, ...

manipulation des comportements

notation sociale

AI ACT : the 4 levels of risks

pas d'impact négatif significatif

Des lignes directrices ?

17 objectifs de développement durable

Quelques projets à impact positif

Le projet Tournesol:

Fournir des recommandations de vidéos d'intérêt général

Le projet Open Food Fact:

Base de données collaboratives de produits

Le projet LightsOff:

Sensibiliser les commerces à éteindre leurs lumières

Le projet CarbonFight

Mesurez au jour le jour votre empreinte carbone

Le projet Ceebios:

Faciliter l'exploration de la biodiversité et de la littérature scientifique pour l'innovation biomimétique

Questions & discussions

Atelier

Présentations de projets réalistes

Les étapes d'un projet data

Déployer &

mettre en production

Structurer les données

Principes d'éthiques

Etude du besoin

Auditer les données

Veille scientifique et technique

Implémenter

algorithmes & modèles

Packaging du code

Livraison

Rapport

Communiquer

Etude de cas de quelques projets réalistes

Panneau de bord pour la synthèse d'information

Besoin

Structure

Données

Solution & livrable

Développer un tableau de bord pour synthétiser et piloter des données de fonds humanitaire

Agence publique de gestion de fonds

Experts métiers associatifs

Pas de culture de la donnée

Données financières de structures réparties dans le monde
Données relatives à la gestion des projets

Structure de donnée pour centraliser et structurer les données + panneau de bord

Extraction d'informations patients

Besoin

Structure

Données

Solution

Livrable

Extraire des informations de documents à des fins d'analyses statistiques

Association

Pas de métiers data - faible culture data

30 Go données de compte rendu d'analyses patients

différents formats (image, pdf, tableur) sur différents sites

Algorithme pour l'extraction et la structuration d'information

Fichiers contentant les informations consolidées

Algorithme de recommandation de contenu à portée medicale

Besoin

Structure

Données

Solution

Livrable

Proposer des recommendations de contenu pour les patients

PME medicale

1 data analyste debutant en poste

données physiologiques sur 500 patients

articles & vidéos (pathologies) : quelques Go

peu de données renseignant les préférences des utilisateurs

Algorithme de recommendation de contenu

Conteneur contenant le code et une API pour requêter

Assistance à la constitution de cohortes patients

Besoin

Structure

Données

Solution

Livrable

Développer des méthodes d'analyse robustes pour faciliter la constiution de des cohortes de patients

Startup médicale proposant un logiciel de management de données médicale

Bonne culture data - 1 data architecte

100taine de Go de données de d'imagerie et textuelle

sources : différents sites et machines/logicielle

Algorithmes & modèle de clustering

Identifications de groupes caractéristiques et explication des critères de constitution

Assistance aux calcul du bilan carbone

Besoin

Structure

Données

Solution

Livrable

Proposer un agent conversationnel pour le calcul du bilan carbone pour les entreprises

Startup tech

Spécialiste de la data - 1 data scientist & 1 chef de projet

Données textuelles et chiffrées ouvertes disponibles

Récolte de données automatisée

Agent conversationnel (modèle ouvert)

Solutions logicielle complète : interface + algorithmes et infrastructure IA

Assistance à la segmentation et l'identification de structures dans des organes

Besoin

Structure

Données

Solution & Livrable

Interfacer des algorithmes de vision par ordinateurs aux logiciels de radiologues

Hopitaux

Spécialistes métiers

1 DSI : un data manager + développeurs

Données d'imageries médicales (IRM, scanner) hétérogènes (quelques To) peu annotées

Algorithmes + API pour l'intégration au logiciel

Prédictions en temps réel d'état physiologiques

Besoin

Structure

Données

Solution

Livrable

S'interfacer avec une simulation en RV pour prédire les états des participants et adapter la simulation

Startup spécialisée dans le traitement de signaux

Neuroscientifiques et ingénieurs traitement du signal
1 data scientist + 1 débutant

Développeurs Jeux vidéos

Séries temporelles physiologiques (EMG, BPM, EEG, conductance de la peau) + Méta données

Algorithmes de classification de profil d'utilisateurs
Algorithmes de génération de signal réaliste

Algorithmes interfacés avec le code de la simulation

A vous de jouer !

Présentation de cas d'usages à résoudre

Consignes pour les présentations

Reformuler et traduire le besoin en terme métier

Prendre en compte les aspects éthiques & réglementaires

Proposer des solutions algorithmiques

Formuler des recommandations concernant la gouvernance des données

Décrire les données à utiliser

Proposer un livrable clair

Variables ? Sources ? Condition d'utilisation

Cas 1 : Solutions pour développer la Smart City

Besoin

Structure

Données

Mettre en place des solutions pour la smart city

Consortium d'acteurs public : Région + Mairies + Métropole

Faible culture data : 2/5

Experience data peu experimenté : 2.5/5

Centaines de To réparties sur différentes structures

Données administatives

Partenariat possible avec des gros acteurs :

Energie / Eau / Transport / Pollution

Quelques profils data mais dispersés entre les organisations

Contraintes

Mutualisation des solutions
Contraintes éthiques & réglementaires

Cas 2 : Analyser la perception des individus sur l'écologie

Besoin

Structure

Données

Analyser la perception des pays de différents continents sur l'écologie

Cabinet de conseil

Assez bonne culture data : 3/5

Experience data plutôt experimenté : 3.5/5

Rechercher des données ouvertes uniquement

Proposer des futures campagnes de collecte

Pas de profils data mais des chefs de projets data

Challenge

Trouver des données suffisamment granulaires

Cas 3 : Assistant personnel pour la transition écologique

Besoin

Structure

Données

Développer un assistant personnel pour l'aide à la transition écologique

Association

Bonne culture data : 4/5

Experience data assez experimenté : 3/5

Utiliser des données ouvertes sur les comportements individuels

Prévoir des modes d'acquisition de données

En interne :  des développeurs

Possibilité de solliciter les compétences d'une communauté de bénévoles

Challenge

Inciter les individus à partager leur données

Cas 4 : Développer l'aide à la consultation par télémédecine

Besoin

Structure

Données

privées

Proposer des solutions pour l'assistance à la consultation en télé médecine

Consortium de cabinets médicaux

faible culture data : 1.5/5

Experience data assez experimenté : 3/5

Grosse volumétrie de données d'imageries (centaine de To)

Données textuelles de compte rendus d'analyses

Données administratives & personnelles sur les patients

En poste :  Un data scientist & un data analyste

Contrainte

Données sensibles soumises aux réglementations

Cas 5 : Identifier des sites de production

 

Besoin

Structure

Données

privées

Identifier des sites pour l'installation de sites de production d'énergie renouvellable (monde)

Grand groupe spécialisé dans l'énergie

Bonne culture data : 4/5

Experience data assez experimenté : 3/5

Données privées agrégées de consommation

Données cartographiques ouvertes à exploiter

Quelques données IoT mais prévoir la généralisation de leur collecte

En poste :  Des experts métiers sur différents énérgie

Un pôle data : data management + data scientist & analystes

Challenges

Granularité des données et solution à destination de non spécialistes de la data

Merci pour votre participation !

Atelier général découverte Data Science & IA

By Nicolas Rochet

Atelier général découverte Data Science & IA

Brève découverte de la data science & l'IA pour un public de non spécialiste

  • 55