Atelier :

Usage de l'IA pour les rédacteurs

9 Septembre 2025

Qui suis je ?

Data for Good

Déroulement

Tour d'horizon de l'IA responsable

Pause dejeuner

Atelier de test des outils

 1

Restitution des outils

 2

 3

Tour d'horizon de l'IA

Principes éthiques

&

 Atelier 1

Activité participative

Partagez votre positionnement sur l'IA

Connectez vous pour participer :

https://app.wooclap.com/BMROHN

 

 

Une définition simplifiée

Ensemble de théories et techniques qui confèrent à des machines la capacité d'accomplir des tâches attribuées aux être intelligents

Une brève histoire de l'IA

50

 

 >2011

93-2011

87-93

80-87

74-80

56-74

Naissance

de l'IA

1er hiver

L'age d'or

2e age d'or

2e hiver

maturité

discrète

Essor du

Deep Learning

 >2019

Explosion
IA gen

Disciplines de l'IA

Définition

Machine learning is a field of artificial intelligence that uses statistical techniques to give computer systems the ability to "learn" (e.g., progressively improve performance on a specific task) from data, without being explicitly programmed
From Arthur Samuels (source : Wikipedia)

Quelques domaines d'applications

Traitement

du

langage naturel

Systèmes

prédictifs

Robotique

Traitement de
l'image et du son

Systèmes de

recommandation

Optimisation

& planification

Aide à la

décision

Quelques domaines métiers

INDUSTRIE

FINANCE

COMMERCE

MEDECINE

ARTISTIQUE

MEDIA

TRANSPORT

...

Maintenance

prédictive

Robots

Gestion de flux

Scoring de crédit

Détection de fraude

Trading automatique

Marketing prédictif

Analyse de sentiment

Découverte de traitements

Prédictions de succès ou récidive

Anticipation de pannes

Robots cuisiniers

Robots

Design génératif

Synthèse de sons

Synthèse d'image

Gestion de ressources

Aide au diagnostic

Véhicules autonomes

Résumé automatique

Génération de contenu

Recommandation de produits

Recommandation de

contenus

légendage

Assistance à la veille

Ce qu'il faut savoir sur l'IA 

Chat GPT n'est pas l'IA générative ! 

l'IA générative n'est pas l'IA ! 

La prédominance de L'IA générative 

Chat GPT n'est pas l'IA générative ! 

2017

2020

2019

2018

CoVE

BERT

ELMo

T5

CVT

ULMFiT

GPT

CamenBERT

FlauBERT

ALBERT

RoBERTa

GPT-3

ELECTRA

XLNet

BART

GPT-4

Bard

> 2023

...

LLama 3

l'IA générative est sous domaine de l'IA

IA générative

deep learning

machine learning

IA

Il existe d'autres types d'IAs

que celle basée sur le machine learning

L'algorithme du plus court chemin :
à la base du GPS

Un algorithme de système expert

Différentes étapes pour les modèles d'IA

Entrainement (généraliste) + spécialisation

Inférence

Déploiement & Intégration (via API)

Modèles vs logiciels

Distinguer model des logiciels

Parler des modele de fondation et de leur dérivés

IA générative ?

Depuis quelques années les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes

Des images/vidéo

vidéos

dessins

illustrations

photo realistes

...

Du texte

Code

paragraphes

questions / réponses

Listes

résumés

...

Les Large Language Models (LLM)

Des sons

voix

musique

...

assistant vocaux

Posts

'Raisonnement'

De très gros réseaux de neurones

Entrainés très longuement sur des jeux de données gigantesques ...

... à prédire chaque prochain token d'un texte

Exemple simplifié de la génération de texte

Conception & Entraînement

"L'apprentissage automatique est une branche de l'IA

 Bonnes capacités de généralisation

image reseau neuroneCreated by Mohamed Mbfrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

Mais pas pour tous les problèmes !

Le réseau entrainé a appris des représentations généralisables

Exemple simplifié de la génération de texte

Inférence

Génération de texte token par token

Ré-entrainement sur des données spécifiques

Sélectionner un ensemble de documents à donner en contexte

Noun_Project_50Icon_10px_grid Created by Yana Sapeginafrom the Noun Project
icone apprentissageArtboard 5 Created by Gregor Cresnarfrom the Noun Project

fine tuning

 En tant qu'expert de la data science programmant en python ...

contexte : prompt

Retrieval Augmented Generation (RAG)

+

Différentes "tailles" de modèles

On rencontre souvent 3 tailles

Petit

Moyen

Grand

1.5b - 5b

> 100b

10b - 15b

Capacités croissante

Pages des modèles de Hugging Face

Les capacités des IAs génératives

La taille de la fenêtre de contexte

Quelques modèles de fondation

Whisper

Un des modèles le plus performant (environ 8% de WER)

Multilangue (98 langage supporté)

dont le français

Limitations de l'IA

L'IA générative se base sur le machine learning

L'IA générative ne sais pas tout faire

L'IA générative fait des erreurs

Exemple :  l'IA générative n'est pas bonne pour les jeux

Le chat joue un coup interdit !

Aspects 

Ethiques

Les biais sont presents dans tout le cycle de vie !

from kaggle

Bias

Stockage

IoT

Empreinte écologique

Calcul algorithmiques

Big Data

Data centers

Entrainement des IA

internet : appels aux APIs

Réseaux

5G

ordinateurs

téléphones

Equipements

Une grande quantité de donnée !

environ 3 à 4 %  de l'empreinte mondiale ! et cela va augmenter

serveurs

Inférence (utilisation)

Données générées

ecrans

Empreinte écologique

Pour l'entrainement Large Langage Models

370 BMW

Consommation annuelle du Danemark !

L'usage massif de l'IA génerative

coût pour GPT-3 : des millions de $

120 foyers américains pendant 1 an

L'usage massif de l'IA génerative

Empreinte écologique

L'essentiel de l'empreinte vient de l'usage !

Interagir avec 25 prompts

0.5 L

Les sites de benchmark

Ils mesurent des indicateurs sur différents aspects des modèles d'IA

Performance

Consommation d'énergie

Toujours évaluer les IAs par des métriques !

Aspects 

Réglementaires

Règlements

en application depuis mai 2018 !

Des régulations se développent également par pays

les systèmes d'IA sont classifiés suivant 4 niveaux de risques pour les utilisateurs

applicable in 2025

Inacceptable

Elevé

Limité

Minimal

IAs considérée comme une menace pour les personnes

impact négatif limité sur la vie des personnes

8 domaines sensibles identifés

Certaines applications de l'IA gen

IA qui devront satifsfaire à des exigences de transparence

devront être enregistrée sur le portail de l'UE

services en ligne, assistant vocaux, etc ...

IA de jeux vidéos, anti-spam, ...

manipulation sociale

classement social

AI Act : 4 niveaux de risques

pas d'impact significatif sur les persionne

Réflexions pour l'intégration de l'IA dans vos métiers

Parcours d'intégration

Propose un méthode pour implémenter l'IA responsable dans les organisations

Stratégie de déploiement des outils

Outils pré-déployés en ligne

Outils à installer sur vos propres infrastructures

Outils Open source

Outils à installer

localement

Zone Europe

Hors Europe

Mise à l'échelle difficile

Plus de maintenance

Plus souverain

Stratégie de déploiement des outils

Outils pré-déployés

en ligne

Outils à déployer sur vos propres infrastructures

Meilleure souveraineté

Outils à installer

localement

Prêt à l'emploi

Difficile mutualisation

Plus de maintenance

Temps & couts de déploiement

Protection des données

Recommandations

Mettre en avant votre expertise métier + IA

Mettre en avant votre spécialisation pour le français

Mettre en avant votre approche éthique

Restitution des outils sourcés

 Atelier 2

Méthodologie du benchmark

4 cas d'usages

Retranscription de réunions

Reconnaissance du locuteur

Résumé et identification de points clés

Amélioration de l'audio

4 Critères noté de 1 à 5

Performance et robustesse

Facilité d'utilisation

niveau de souveraineté et d'éthique

Contrainte de mise en place

Méthodologie du benchmark

Outils retenus

Uniquement les solutions qui présentaient un niveau de performance, d'utilisabilité ou d'éthique suffisant

Solutions de retranscription

Cas d'usage

Technologies

Challenges

Assistance à la retranscription textuelle d'enregistrements vocaux

Algorithmes d'IA de speech-to-text

Bonnes performances avec du français professionnel (jargon)

Performance et robustesse plutôt bonnes avec les modèles récents

Protection des données sensibles

Permet la séparation des locuteur et marquage temporel + la retranscription

Multilangue (dont le français)

Possibilité d'ajout d'add on pour une meilleure prise en compte du jargon

Brique logicielle en ligne spécialisée pour l'analyse de réunions

Propriétés

Basé sur le modèle open source Whisper

Facilité d'utilisation 5/5

Version gratuite avec 10h/mois

Facturation pay-as-you-go ou formule entreprise

Audio & vidéo

Performance et robustesse 4/5

Bonne performance a priori (94% accuracy)

Pas de tests prouvant ces performances

niveau de souveraineté et d'éthique : 4,5/5

Entreprise Française respectant le RGPD

Norme de sécurité :
HIPAA & SOC 2

Données vocales conservées ?

Facilité de mise en place 5/5

Utilisable directement en ligne

Intégration possible dans vos infrastructures (via une API)

Brique logicielle pour la prise de notes et de résumé des points imporants

Multilangue (dont le français)

Brique logicielle en ligne spécialisée pour la retranscription et l'analyse de réunion

Propriétés

Performance et robustesse ?

Pas de benchmark de  performances

Contrainte de mise en place 4/5

API & SDK de retranscription intégrable facilement

Pas possible l'utiliser sur vos infrastructures (pas d'API)

Données vocales conservées ?

niveau de souveraineté et d'éthique : 3.5/5

Entreprise Allemande respectant le RGPD

Usage de service américains

Facilité d'utilisation 4.5/5

Utilisable via plateforme en ligne

Abonnement 10$/mois

Intégrations (dont) Teams, Zoom, Google Meet

Fichiers audio & vidéo

Multilangue (dont le français)

Propriétés

Approche fortement orientée pour les métiers de la retranscription

Facilité d'utilisation 4.5/5

Utilisable via plateforme en ligne

Livraison en moins de 24h

Fichiers audio & vidéo

Niveau de souveraineté et d'éthique : 4/5

Certification RGPD + ISO 27001 et ISO 9001

Données vocales conservées ?

Performance et robustesse 4.5

85 à 100% de précision : contrôle de qualité par des locuteurs natifs

Facilité de mise en place 5/5

Utilisable directement en ligne

Intégration possible dans vos infrastructures (via une API)

A construire soi même

Souveraineté maîtrisée !

En utilisant des modèles open source, il est possible de construire votre propre outil !

Nécessite des compétences techniques

Mise en place
Maintenance

A héberger dans votre propre infrastructure (serveur de calcul + d'interface)

Couts de départ élevés

Coûts moindre sur le long terme

Permet de faire évoluer l'outil

Deux modèles recommandés

Modèle très performant et très utilisé

Différentes tailles de modèles

Fortement multi-langue

Modèle très récent (Juillet 2025) et bon en francais

Cout plus bas que ses concurrents

Petit modèles (Mini et Small) utilisables localement

Bientôt une intégration a la plateforme Mistral ?

Résumé

Exclus du benchmark

Malgré un modèle très performant, le niveau d'éthique est très insuffisant

Hébergement de données aux US

Horodatage d'évènements

Multilangue (dont le français)

De bons résultats même dans les langues mal désservies

Brique logicielle en ligne spécialisée pour la retranscription

Propriétés

Laboratoire spécialiste ayant développé

leur propre modèle : Scribe

Aspects éthiques préocupants !

Facilité d'utilisation 5/5

Différents plans de facturation graduels

Fichiers audio & vidéo

Facilité de mise en place 5/5

Utilisable directement en ligne

Intégration possible dans vos infrastructures (via de multiples API)

Modèle Scribe à l'état de l'art

(a priori le plus performant)

Performance et robustesse 5/5

niveau de souveraineté et d'éthique : 1/5

Non respect a prioridu RGPD

Par défaut, données personnelles hébergées au US et fort risque d'utilisation

Modération automatisée et humaine

Solutions de reconnaissance du locuteur

Technologies

Challenges

Identifier qui parle et à quel moment 

Algorithmes d'IA 

Tâche difficile lorsque plusieurs locuteurs parlent en même temps

Performance et robustesse encore variables

Protection des données sensibles

Cas d'usage

Permet la séparation des locuteur et marquage temporel + la retranscription

Brique logicielle en ligne spécialisée pour l'analyse de réunions

Propriétés

(Utilise pyannote pour la séparation des locuteurs)

Plateforme disponible pour l'utilisation prêt à l'emploi, mais plutôt destinée à des profils familiers avec la tech

Spécialisé dans la reconnaissance et segmentation des locuteurs

Outil basé sur un programme open source issu de travaux de la recherche en traitement du langage

Propriétés

Intègre aussi une brique logicielle de retranscription

Facilité d'utilisation 5/5

Version gratuite

Facturation pay-as-you-go ou formule entreprise

Audio & vidéo

Performance et robustesse 4/5

A priori, un des meilleurs pour la segmentation des locuteurs

Pas de tests prouvant ces performances

niveau de souveraineté et d'éthique : ?

Pas d'informations précises sur leur politique de traitement de données

Utilise (en partie) des briques open source

Données vocales conservées ?

Facilité de mise en place 5/5

Utilisable directement en ligne

Possibilité d'utiliser le code open source de pyannote et les API pour la segmentation du locuteur

Solutions de reconnaissance de résumé automatique

Technologies

Challenges

Résumer un texte et en faire ressortir les points importants

Algorithmes d'IA 

Dépendant de la bonne performance de la retranscrtiption audio

Performance et robustesse encore variables

Protection des données sensibles

Cas d'usage

Brique logicielle pour la prise de notes et de résumé des points imporant

Multilangue (dont le français)

Brique logicielle en ligne spécialisée pour l'analyse de réunions

Propriétés

Possède une brique d'anlayse de contenu

Brique logicielle pour la gestion de réunion

avec beaucoup d'intégrations (vers des  logiciels connus)

Propriétés

Solutions d'amélioration de l'audio

Technologies

Challenges

Résumer un texte et en faire ressortir les points importants

Algorithmes d'IA 

Dépendant de la bonne performance de la retranscrtiption audio

Performance et robustesse encore variables

Protection des données sensibles

Cas d'usage

Outil combinant plusieurs fonctionnalités pour les réunion :

Réduction de bruit

Notes et résumé automatique

Correction de l'accent du locuteur

Propriétés

Cas d'usages et cible plutôt orientée pour les call centers

Performance et robustesse ?

Pas de benchmark de  performances mais une brique provenant de la recherche

Contrainte de mise en place 4/5

code & API intégrable facilement

Facilité d'utilisation 4.5/5

Utilisable via plateforme en ligne

Abonnement

Intégration aux outils de réunion

Outil assez polyvalen

niveau de souveraineté et d'éthique : ?

Entreprise américaine : données hébergées hors UE

Propriétés

Outil proposant plusieurs fonctionnalités pour l'amélioration de l'audio des réunions :

suppression de bruits, de sons parasites,

de silences, de bégaiement

Cas d'usage plutôt orienté pour la gestion des podcasts

Résumé

Tableau récapitulatif & comparatif des outils sélectionnés

Bilan

 Atelier 3

Questions & remarques ?

Session de tests des outils présentés

Tour de table

Vote

Session de test (30 min)

Testez, si possible pour chaque cas d'usage les solutions qui vous intéressent

Partagez vos commentaires de manière collaborative, sur ce document :

https://semestriel.framapad.org/p/q42pv0mhv6-agoa?lang=fr

Vote : jugement majoritaire

Pour chacun des outils testés, indiquez votre préférence

Classement de chaque outil par la médiane des scores individuels

Merci de votre attention et de votre participation

Atelier: Usage de l'IA pour les rédacteurs

By Nicolas Rochet

Atelier: Usage de l'IA pour les rédacteurs

Tour d'horizon des outils utilsant l'IA

  • 63