54 termes définis pour comprendre, négocier, et décider — du token au tier-routing, du RAG au RGPD, de la latence à la souveraineté.
Quatre catégories — technique, business, légal, UX. Chaque entrée pointe vers les autres termes liés.
Point d'accès programmatique à un modèle. Vous envoyez du texte, recevez du texte. Facturé au token consommé. Toutes les intégrations professionnelles passent par l'API plutôt que par l'interface chat publique.
Système où le modèle peut appeler des outils (recherche web, base de données, calculatrice) en boucle pour accomplir une tâche multi-étapes. Plus complexe à fiabiliser qu'un simple appel single-shot.
Travail post-entraînement pour faire en sorte que le modèle suive vos instructions et refuse les demandes problématiques. Mesuré par des évaluations qualitatives et adversariales — pas par un benchmark unique.
Méthode d'entraînement où chaque exemple est labellisé manuellement. Le modèle apprend à reproduire le mapping entrée → sortie. Toujours utilisé pour les phases de fine-tuning.
Test standardisé (MMLU, HumanEval, MATH…) pour comparer des modèles. Utile à la recherche, peu utile à un choix business — il ne mesure pas votre tâche réelle dans votre langue avec vos données.
Tendance d'un modèle à privilégier certains points de vue, démographies, langues. Hérité des données d'entraînement. À auditer activement pour tout usage qui touche à des décisions concernant des personnes.
Loi américaine permettant aux autorités US d'exiger l'accès aux données détenues par une entreprise américaine, où qu'elles soient stockées. Peut entrer en conflit avec le RGPD pour des données EU hébergées chez OpenAI / Anthropic.
Quantité maximale de texte qu'un modèle peut traiter en une seule requête, mesurée en tokens. 200 K tokens ≈ 150 000 mots. Au-delà, il faut découper ou utiliser un système RAG.
Coût d'une requête supplémentaire à votre fournisseur — typiquement quelques centimes en API. Le coût total cumulé sur des volumes réels reste à modéliser : 100 000 requêtes/mois × 0,03 € = 3 000 €.
Accord juridique entre vous (responsable de traitement) et votre fournisseur (sous-traitant) précisant comment vos données sont traitées. Obligatoire au sens du RGPD pour tout flux de données personnelles vers un fournisseur IA.
Annonce par un fournisseur qu'un modèle ne sera plus disponible à une date donnée. Vous devez migrer votre code et vos prompts vers un modèle successeur — non trivial. À surveiller dès le choix d'architecture.
Représentation vectorielle d'un texte (typiquement 768 à 3 072 dimensions). Permet de mesurer la similarité sémantique entre deux textes. Brique de base de tout système RAG.
Cadre européen de classification et régulation des systèmes IA selon leur niveau de risque. Obligations renforcées pour les systèmes à haut risque (RH, scoring, biométrie). Applicable progressivement de 2025 à 2027.
Banc d'essai construit à partir de votre cas réel — 20 à 100 paires entrée/sortie attendues. Permet de comparer objectivement deux modèles ou deux versions de prompt sur ce qui compte pour vous.
Technique consistant à inclure 2 à 5 exemples dans le prompt pour guider la sortie. Souvent suffisant pour des tâches de classification ou d'extraction sans recourir au fine-tuning.
Spécialisation d'un modèle sur vos données. Coûteux en données labellisées (1 000 à 10 000 exemples) et en calcul. Le few-shot ou le RAG suffisent dans la plupart des cas — n'y allez pas par défaut.
Modèle de pointe d'un fournisseur — GPT-4o, Claude Opus, o3. Cher (10 à 50× plus qu'un modèle léger) et lent. À utiliser uniquement quand un modèle plus léger ne tient pas votre barre de qualité.
Couche logicielle qui filtre les entrées et sorties d'un modèle pour bloquer les contenus problématiques (PII, propos toxiques, injection de prompt). À implémenter en plus de l'alignment côté modèle.
Processeurs spécialisés pour l'entraînement et l'inférence des modèles IA. NVIDIA H100/H200 dominent en 2026. À l'origine du coût élevé de l'IA — un cluster de 10 000 GPU coûte plusieurs centaines de millions.
Lorsqu'un modèle invente une information de manière confiante — date, citation, fait, code. Mitigé par le RAG, le few-shot, et la révision humaine. Jamais éliminé à 100 %.
Architecture où une personne valide les sorties du modèle avant qu'elles n'aient un effet réel — envoi d'un email, validation d'un paiement. Indispensable pour tout flux à conséquence non récupérable.
Phase d'utilisation d'un modèle entraîné — chaque appel API est une inférence. Distincte de l'entraînement (one-shot, très cher). C'est l'inférence qui constitue la quasi-totalité de la facture API d'un produit.
Temps entre l'envoi d'une requête et la réception de la réponse. Modèle léger : 0,3 à 1 s. Modèle frontier : 3 à 15 s. Critique pour le temps réel, négligeable pour le batch.
Modèle de langage à grande échelle — entraîné sur des milliards de tokens, contenant des dizaines à des centaines de milliards de paramètres. GPT, Claude, Mistral, Llama, Gemini sont tous des LLM.
Voir Frontier model. La traduction française n'est pas figée — frontier model et modèle frontier coexistent dans la littérature. Désigne le modèle de pointe d'un fournisseur à un instant donné.
Modèle compact (Haiku, GPT-4o Mini, Mistral Small) optimisé pour rapidité et coût. Suffit pour 70 à 90 % des cas business : classification, extraction, résumé court, FAQ. Premier choix par défaut.
Modèle qui accepte plusieurs types d'entrée : texte, image, audio, vidéo. GPT-4o, Claude Sonnet et Gemini sont nativement multimodaux. Ouvre des cas comme la lecture de factures scannées ou la description d'images.
Hébergement d'un modèle sur votre propre infrastructure — vos serveurs, votre datacenter. Aucune donnée ne quitte le périmètre. Demande des compétences DevOps/MLOps et un investissement matériel non négligeable.
Modèle dont les poids sont publiquement téléchargeables (Llama, Mistral 7B, Gemma…). Permet du déploiement on-premise sans dépendance à un fournisseur. Lisez la licence — toutes ne sont pas commerciales sans condition.
Poids appris pendant l'entraînement. Un Mistral 7B compte 7 milliards de paramètres ; GPT-4 plusieurs centaines. La taille corrèle (imparfaitement) avec la capacité — un modèle plus gros n'est pas toujours meilleur sur votre tâche.
L'instruction envoyée au modèle. Un bon prompt est précis, contextualisé, et inclut idéalement quelques exemples (few-shot) et le format attendu en sortie (JSON, balises…).
Discipline de la rédaction et l'optimisation des prompts. Itérez sur des évaluations pour mesurer ce qui marche. Souvent plus rentable que le fine-tuning pour des gains de qualité.
Mécanisme qui réduit le coût des tokens de contexte répétés (instructions système, documents de référence) — typiquement par un facteur 10 chez Anthropic. À activer pour tout usage à instructions stables.
Architecture où le modèle récupère des documents pertinents dans une base avant de répondre. Permet d'utiliser vos données propres sans entraîner un modèle. Standard pour les assistants documentaires d'entreprise.
Cadre européen de protection des données personnelles. S'applique dès qu'une personne identifiable est concernée. Toute utilisation d'IA traitant des PII tombe sous son périmètre — DPA et information des personnes obligatoires.
Technique d'alignment utilisant les évaluations humaines pour récompenser le modèle. Étape standard du post-entraînement chez OpenAI, Anthropic et Mistral.
Engagement contractuel sur la disponibilité (typiquement 99,9 %), le temps de réponse, et les conditions de remboursement en cas d'indisponibilité. Clé pour tout déploiement critique.
Capacité à maîtriser ses données et infrastructures sans dépendance à des juridictions étrangères. En IA : modèles européens (Mistral) et déploiements on-premise sont les options souveraines.
Instruction préfixée à toutes les requêtes utilisateur, qui définit la persona, les règles et les garde-fous du modèle. Invisible pour l'utilisateur final, central pour la cohérence du produit.
Stratégie qui consiste à router chaque requête vers le modèle le plus léger qui suffit, et à n'utiliser un modèle frontier qu'en escalade. Réduit la facture API d'un facteur 5 à 20.
Unité de découpage du texte par le modèle — un mot court = 1 token, un mot long = 2 ou 3. 1 000 tokens ≈ 750 mots en anglais, 650 en français. Tout est facturé au token : entrée et sortie.
Capacité d'un modèle à appeler des fonctions externes — recherche web, base de données, API tierce. Ouvre la voie aux agents. À encadrer par des garde-fous pour limiter les actions à conséquence.
Paramètre qui contrôle l'aléatoire des sorties. 0 = déterministe, utilisée pour extraction et classification. 0,7 à 1 = créative, utilisée pour génération de contenu marketing ou brainstorming.
Architecture neuronale (Vaswani et al., 2017) à l'origine de tous les LLM modernes. Le mécanisme d'attention lui permet de gérer du contexte long. Le « T » de GPT.
Base de données spécialisée dans le stockage et la recherche d'embeddings. Pinecone, Weaviate, Qdrant, pgvector. Brique d'infrastructure d'un système RAG.
Pratique qui consiste à coder par allers-retours conversationnels avec un assistant IA, sans plan d'architecture préalable. Productif pour le prototypage, risqué pour la production sans relecture.
« IA » ne veut rien dire en soi — précisez : LLM, vision, classification, recommandation. « Le modèle apprend » en production : non, sauf rare RLHF en ligne. « GPT » désigne une famille d'OpenAI, pas un synonyme générique d'IA.
« 99,9 % de précision » sans préciser sur quoi est un slogan, pas une donnée.