Atelier :
Usage de l'IA pour les rédacteurs
9 Septembre 2025





Qui suis je ?


Data for Good

Déroulement
Tour d'horizon de l'IA responsable
Pause dejeuner
Atelier de test des outils
1
Restitution des outils
2
3
Tour d'horizon de l'IA
Principes éthiques
&
Atelier 1
Activité participative
Partagez votre positionnement sur l'IA
Une définition simplifiée
Ensemble de théories et techniques qui confèrent à des machines la capacité d'accomplir des tâches attribuées aux être intelligents
Une brève histoire de l'IA
50
>2011
93-2011
87-93
80-87
74-80
56-74
Naissance
de l'IA
1er hiver
L'age d'or
2e age d'or
2e hiver
maturité
discrète
Essor du
Deep Learning
>2019
Explosion
IA gen
Disciplines de l'IA

Définition
Machine learning is a field of artificial intelligence that uses statistical techniques to give computer systems the ability to "learn" (e.g., progressively improve performance on a specific task) from data, without being explicitly programmed
From Arthur Samuels (source : Wikipedia)
Quelques domaines d'applications
Traitement
du
langage naturel
Systèmes
prédictifs
Robotique
Traitement de
l'image et du son
Systèmes de
recommandation
Optimisation
& planification
Aide à la
décision
Quelques domaines métiers
INDUSTRIE
FINANCE
COMMERCE
MEDECINE
ARTISTIQUE
MEDIA
TRANSPORT
...
Maintenance
prédictive
Robots
Gestion de flux
Scoring de crédit
Détection de fraude
Trading automatique
Marketing prédictif
Analyse de sentiment
Découverte de traitements
Prédictions de succès ou récidive
Anticipation de pannes
Robots cuisiniers
Robots
Design génératif
Synthèse de sons
Synthèse d'image
Gestion de ressources
Aide au diagnostic
Véhicules autonomes
Résumé automatique
Génération de contenu
Recommandation de produits
Recommandation de
contenus
légendage
Assistance à la veille
Ce qu'il faut savoir sur l'IA
Chat GPT n'est pas l'IA générative !

l'IA générative n'est pas l'IA !
La prédominance de L'IA générative
Chat GPT n'est pas l'IA générative !

2017
2020
2019
2018
CoVE
BERT
ELMo
T5
CVT
ULMFiT
GPT
CamenBERT
FlauBERT
ALBERT
RoBERTa
GPT-3
ELECTRA
XLNet
BART
GPT-4
Bard
> 2023
...
LLama 3

l'IA générative est sous domaine de l'IA
IA générative
deep learning
machine learning
IA
Il existe d'autres types d'IAs
que celle basée sur le machine learning


L'algorithme du plus court chemin :
à la base du GPS
Un algorithme de système expert
Différentes étapes pour les modèles d'IA
Entrainement (généraliste) + spécialisation
Inférence
Déploiement & Intégration (via API)
Modèles vs logiciels
Distinguer model des logiciels
Parler des modele de fondation et de leur dérivés
IA générative ?
Depuis quelques années les progrès de la recherche ont abouti à des IAs capables de générer des données réalistes
Des images/vidéo
vidéos
dessins
illustrations
photo realistes
...
Du texte
Code
paragraphes
questions / réponses
Listes
résumés
...
Les Large Language Models (LLM)
Des sons
voix
musique
...
assistant vocaux
Posts
'Raisonnement'
De très gros réseaux de neurones
Entrainés très longuement sur des jeux de données gigantesques ...
... à prédire chaque prochain token d'un texte
Exemple simplifié de la génération de texte
Conception & Entraînement
"L'apprentissage automatique est une branche de l'IA
Bonnes capacités de généralisation




Mais pas pour tous les problèmes !

Le réseau entrainé a appris des représentations généralisables
Exemple simplifié de la génération de texte
Inférence
Génération de texte token par token
Ré-entrainement sur des données spécifiques
Sélectionner un ensemble de documents à donner en contexte


fine tuning
En tant qu'expert de la data science programmant en python ...
contexte : prompt
Retrieval Augmented Generation (RAG)
+
Différentes "tailles" de modèles

On rencontre souvent 3 tailles
Petit
Moyen
Grand
1.5b - 5b
> 100b
10b - 15b
Capacités croissante
Pages des modèles de Hugging Face
Les capacités des IAs génératives

La taille de la fenêtre de contexte
Quelques modèles de fondation
Whisper
Un des modèles le plus performant (environ 8% de WER)
Multilangue (98 langage supporté)
dont le français
Limitations de l'IA
L'IA générative se base sur le machine learning
L'IA générative ne sais pas tout faire

L'IA générative fait des erreurs
Exemple : l'IA générative n'est pas bonne pour les jeux

Le chat joue un coup interdit !

Aspects
Ethiques
Les biais sont presents dans tout le cycle de vie !
from kaggle
Bias

Stockage
IoT
Empreinte écologique
Calcul algorithmiques
Big Data
Data centers
Entrainement des IA
internet : appels aux APIs
Réseaux
5G
ordinateurs
téléphones
Equipements
Une grande quantité de donnée !
environ 3 à 4 % de l'empreinte mondiale ! et cela va augmenter
serveurs
Inférence (utilisation)
Données générées
ecrans
Empreinte écologique
Pour l'entrainement Large Langage Models
370 BMW
Consommation annuelle du Danemark !
L'usage massif de l'IA génerative
coût pour GPT-3 : des millions de $
120 foyers américains pendant 1 an
L'usage massif de l'IA génerative
Empreinte écologique
L'essentiel de l'empreinte vient de l'usage !

Interagir avec 25 prompts
0.5 L
Les sites de benchmark
Ils mesurent des indicateurs sur différents aspects des modèles d'IA
Performance
Consommation d'énergie
Toujours évaluer les IAs par des métriques !
Aspects
Réglementaires
Règlements

en application depuis mai 2018 !
Des régulations se développent également par pays
les systèmes d'IA sont classifiés suivant 4 niveaux de risques pour les utilisateurs
applicable in 2025
Inacceptable
Elevé
Limité
Minimal
IAs considérée comme une menace pour les personnes
impact négatif limité sur la vie des personnes
8 domaines sensibles identifés
Certaines applications de l'IA gen
IA qui devront satifsfaire à des exigences de transparence
devront être enregistrée sur le portail de l'UE
services en ligne, assistant vocaux, etc ...
IA de jeux vidéos, anti-spam, ...
manipulation sociale
classement social
AI Act : 4 niveaux de risques
pas d'impact significatif sur les persionne
Réflexions pour l'intégration de l'IA dans vos métiers
Parcours d'intégration
Propose un méthode pour implémenter l'IA responsable dans les organisations

Stratégie de déploiement des outils
Outils pré-déployés en ligne
Outils à installer sur vos propres infrastructures
Outils Open source
Outils à installer
localement
Zone Europe
Hors Europe
Mise à l'échelle difficile
Plus de maintenance
Plus souverain
Stratégie de déploiement des outils
Outils pré-déployés
en ligne
Outils à déployer sur vos propres infrastructures
Meilleure souveraineté
Outils à installer
localement
Prêt à l'emploi
Difficile mutualisation
Plus de maintenance
Temps & couts de déploiement
Protection des données
Recommandations
Mettre en avant votre expertise métier + IA
Mettre en avant votre spécialisation pour le français
Mettre en avant votre approche éthique
Restitution des outils sourcés
Atelier 2
Méthodologie du benchmark
4 cas d'usages
Retranscription de réunions
Reconnaissance du locuteur
Résumé et identification de points clés
Amélioration de l'audio
4 Critères noté de 1 à 5
Performance et robustesse
Facilité d'utilisation
niveau de souveraineté et d'éthique
Contrainte de mise en place
Méthodologie du benchmark
Outils retenus
Uniquement les solutions qui présentaient un niveau de performance, d'utilisabilité ou d'éthique suffisant
Solutions de retranscription
Cas d'usage
Technologies
Challenges
Assistance à la retranscription textuelle d'enregistrements vocaux
Algorithmes d'IA de speech-to-text
Bonnes performances avec du français professionnel (jargon)
Performance et robustesse plutôt bonnes avec les modèles récents
Protection des données sensibles
Permet la séparation des locuteur et marquage temporel + la retranscription
Multilangue (dont le français)
Possibilité d'ajout d'add on pour une meilleure prise en compte du jargon
Brique logicielle en ligne spécialisée pour l'analyse de réunions
Propriétés
Basé sur le modèle open source Whisper
Facilité d'utilisation 5/5
Version gratuite avec 10h/mois
Facturation pay-as-you-go ou formule entreprise
Audio & vidéo
Performance et robustesse 4/5
Bonne performance a priori (94% accuracy)
Pas de tests prouvant ces performances
niveau de souveraineté et d'éthique : 4,5/5
Entreprise Française respectant le RGPD
Norme de sécurité :
HIPAA & SOC 2
Données vocales conservées ?
Facilité de mise en place 5/5
Utilisable directement en ligne
Intégration possible dans vos infrastructures (via une API)
Brique logicielle pour la prise de notes et de résumé des points imporants
Multilangue (dont le français)
Brique logicielle en ligne spécialisée pour la retranscription et l'analyse de réunion
Propriétés
Performance et robustesse ?
Pas de benchmark de performances
Contrainte de mise en place 4/5
API & SDK de retranscription intégrable facilement
Pas possible l'utiliser sur vos infrastructures (pas d'API)
Données vocales conservées ?
niveau de souveraineté et d'éthique : 3.5/5
Entreprise Allemande respectant le RGPD
Usage de service américains
Facilité d'utilisation 4.5/5
Utilisable via plateforme en ligne
Abonnement 10$/mois
Intégrations (dont) Teams, Zoom, Google Meet
Fichiers audio & vidéo
Multilangue (dont le français)
Propriétés
Approche fortement orientée pour les métiers de la retranscription
Facilité d'utilisation 4.5/5
Utilisable via plateforme en ligne
Livraison en moins de 24h
Fichiers audio & vidéo
Niveau de souveraineté et d'éthique : 4/5
Certification RGPD + ISO 27001 et ISO 9001
Données vocales conservées ?
Performance et robustesse 4.5
85 à 100% de précision : contrôle de qualité par des locuteurs natifs
Facilité de mise en place 5/5
Utilisable directement en ligne
Intégration possible dans vos infrastructures (via une API)
A construire soi même
Souveraineté maîtrisée !
En utilisant des modèles open source, il est possible de construire votre propre outil !
Nécessite des compétences techniques
Mise en place
Maintenance
A héberger dans votre propre infrastructure (serveur de calcul + d'interface)
Couts de départ élevés
Coûts moindre sur le long terme
Permet de faire évoluer l'outil
Deux modèles recommandés
Modèle très performant et très utilisé
Différentes tailles de modèles
Fortement multi-langue
Modèle très récent (Juillet 2025) et bon en francais
Cout plus bas que ses concurrents
Petit modèles (Mini et Small) utilisables localement
Bientôt une intégration a la plateforme Mistral ?
Résumé
Exclus du benchmark
Malgré un modèle très performant, le niveau d'éthique est très insuffisant
Hébergement de données aux US
Horodatage d'évènements
Multilangue (dont le français)
De bons résultats même dans les langues mal désservies
Brique logicielle en ligne spécialisée pour la retranscription
Propriétés
Laboratoire spécialiste ayant développé
leur propre modèle : Scribe
Aspects éthiques préocupants !
Facilité d'utilisation 5/5
Différents plans de facturation graduels
Fichiers audio & vidéo
Facilité de mise en place 5/5
Utilisable directement en ligne
Intégration possible dans vos infrastructures (via de multiples API)
Modèle Scribe à l'état de l'art
(a priori le plus performant)
Performance et robustesse 5/5
niveau de souveraineté et d'éthique : 1/5
Non respect a prioridu RGPD
Par défaut, données personnelles hébergées au US et fort risque d'utilisation
Modération automatisée et humaine
Solutions de reconnaissance du locuteur
Technologies
Challenges
Identifier qui parle et à quel moment
Algorithmes d'IA
Tâche difficile lorsque plusieurs locuteurs parlent en même temps
Performance et robustesse encore variables
Protection des données sensibles
Cas d'usage
Permet la séparation des locuteur et marquage temporel + la retranscription
Brique logicielle en ligne spécialisée pour l'analyse de réunions
Propriétés
(Utilise pyannote pour la séparation des locuteurs)
Plateforme disponible pour l'utilisation prêt à l'emploi, mais plutôt destinée à des profils familiers avec la tech
Spécialisé dans la reconnaissance et segmentation des locuteurs
Outil basé sur un programme open source issu de travaux de la recherche en traitement du langage
Propriétés
Intègre aussi une brique logicielle de retranscription
Facilité d'utilisation 5/5
Version gratuite
Facturation pay-as-you-go ou formule entreprise
Audio & vidéo
Performance et robustesse 4/5
A priori, un des meilleurs pour la segmentation des locuteurs
Pas de tests prouvant ces performances
niveau de souveraineté et d'éthique : ?
Pas d'informations précises sur leur politique de traitement de données
Utilise (en partie) des briques open source
Données vocales conservées ?
Facilité de mise en place 5/5
Utilisable directement en ligne
Possibilité d'utiliser le code open source de pyannote et les API pour la segmentation du locuteur
Solutions de reconnaissance de résumé automatique
Technologies
Challenges
Résumer un texte et en faire ressortir les points importants
Algorithmes d'IA
Dépendant de la bonne performance de la retranscrtiption audio
Performance et robustesse encore variables
Protection des données sensibles
Cas d'usage
Brique logicielle pour la prise de notes et de résumé des points imporant
Multilangue (dont le français)
Brique logicielle en ligne spécialisée pour l'analyse de réunions
Propriétés
Possède une brique d'anlayse de contenu
Brique logicielle pour la gestion de réunion
avec beaucoup d'intégrations (vers des logiciels connus)
Propriétés
Solutions d'amélioration de l'audio
Technologies
Challenges
Résumer un texte et en faire ressortir les points importants
Algorithmes d'IA
Dépendant de la bonne performance de la retranscrtiption audio
Performance et robustesse encore variables
Protection des données sensibles
Cas d'usage
Outil combinant plusieurs fonctionnalités pour les réunion :
Réduction de bruit
Notes et résumé automatique
Correction de l'accent du locuteur
Propriétés
Cas d'usages et cible plutôt orientée pour les call centers
Performance et robustesse ?
Pas de benchmark de performances mais une brique provenant de la recherche
Contrainte de mise en place 4/5
code & API intégrable facilement
Facilité d'utilisation 4.5/5
Utilisable via plateforme en ligne
Abonnement
Intégration aux outils de réunion
Outil assez polyvalen
niveau de souveraineté et d'éthique : ?
Entreprise américaine : données hébergées hors UE
Propriétés
Outil proposant plusieurs fonctionnalités pour l'amélioration de l'audio des réunions :
suppression de bruits, de sons parasites,
de silences, de bégaiement
Cas d'usage plutôt orienté pour la gestion des podcasts
Résumé
Tableau récapitulatif & comparatif des outils sélectionnés
Bilan
Atelier 3
Questions & remarques ?
Session de tests des outils présentés
Tour de table
Vote
Session de test (30 min)
Testez, si possible pour chaque cas d'usage les solutions qui vous intéressent
Partagez vos commentaires de manière collaborative, sur ce document :
Vote : jugement majoritaire
Pour chacun des outils testés, indiquez votre préférence
Classement de chaque outil par la médiane des scores individuels
Merci de votre attention et de votre participation
Atelier: Usage de l'IA pour les rédacteurs
By Nicolas Rochet
Atelier: Usage de l'IA pour les rédacteurs
Tour d'horizon des outils utilsant l'IA
- 63


