Assistant  A.I

Entrainement

Index

Index

Assistant

C'est quoi ?

L'Assistant OpenAI est une IA basée sur des modèles de langage avancés comme GPT, permettant des interactions naturelles et contextuelles.

1.

Contexte

L'ajout de données spécifiques permet de personnaliser les réponses de l’assistant, le rendant plus pertinent et adapté aux besoins organisationnels.

2.

Usage

Utilisable dans divers domaines comme le service client et la génération de contenu. Il améliore l'efficacité et enrichit l'expérience utilisateur.

3.

Fichiers

Type MIME

Les extensions des fichiers.

1.

Taille

La taille et le nombre des fichiers acceptés.

2.

Contenu

Le contenu des fichiers.

3.

Type MIME

Extensions acceptées

  • .c, .cpp, .cs, .css, .doc, .docx, .go, .html, .java, .js, .json, .md, .pdf, .php, .pptx, .py, .py, .rb, .sh, .tex, .ts, .txt

Les extensions des fichiers

Extensions non acceptées

  • .amv, .csv, .gif, .jpeg, .jpg, .mp4, .png, .svg, .webm, .xlsx

Taille

Nombre de fichiers

10 000 fichiers / Assistant

Taille des fichiers

Taille maximale

512 Mo / fichier

Nombre maximum de Tokens

5 000 000 / fichier

Contenu

Type MIME

Les extensions des fichiers.

1.

⚠️ Cas d'erreur

Les fichiers d'entraînement ne doivent pas être une seule et unique image (.png, .jpeg, .jpg) insérée dans un fichier Word ou PDF. Il faudra passer par une "OCRisation" de l'image.

Contenu des fichiers

Il n'existe aucune limite ni contrainte concernant le contenu des fichiers dans la documentation officielle. L'assistant pourra charger et indexer le contenu des documents avec les extensions autorisées.

Datas

Nettoyage

Un set de données pertinent. 

1.

Protections

Données sensibles et personnelles.

2.

Nettoyage

  • Sélectionner uniquement les données nécessaires à l'objectif de l'Assistant (RGPD)
  • Éliminer les données incorrectes
  • Éliminer les données dupliquées et celles obsolètes pour éviter les biais possibles
  • Normaliser les données dans la mesure du possible pour une meilleure cohérence.
  • Filtrer les données sensibles non nécessaires.

Protections

  • Anonymiser ou pseudonymiser, dans la mesure du possible, les données pour minimiser les risques.
  • Si besoin de données personnelles, s'assurer d'avoir le consentement explicite des individus concernés (RGPD).
  • Éliminer toutes les données qui pourraient entraîner des biais discriminatoires (IA Act).

Annexe

Tips

Pour une meilleure pertinence. 

1.

Empoisonnement

Eviter de nuire à la performance du modèle.

2.

Tips

  • Regrouper les informations de même nature dans le même document (utiliser des sections)
  • L'utilisation des mots-clés et un nommage parlant des documents améliore considérablement la pertinence des recherches de l'information.
  • Bien structurer les documents (titres/sous-titres, listes, etc.).
  • Si besoin de segmenter des documents, s'assurer que les segments sont compréhensibles et correctement contextualisés.
  • L'objectif de l'assistant doit être clairement identifié et précis.
  • Seules les données nécessaires doivent être utilisées (supprimer doublons, erreurs, etc.).
  • Collecter des données diversifiées et représentatives de chaque domaine.

Empoisonnement

  • Un prompt inséré dans les documents peut inciter l'Assistant à répondre de manière non souhaitée ou à donner des réponses indésirables.
    • Analyser les documents et supprimer ce type d'injections.
  • Introduire des données contradictoires ou biaisées peut forcer l'Assistant à adopter une logique erronée dans ses réponses.
    • Ajouter du contexte à toutes les informations et supprimer toutes contradictions.
  • Surreprésenter un domaine/catégorie de données qui ne couvre qu'un point de vue.
    • Les documents doivent être équilibrés et couvrir plusieurs points de vue.

Assistant A.I

Entrainement