Les grands modèles linguistiques (LLM) expliqués

Que fait un LLM

À la base, un LLM prédit quel texte devrait venir ensuite compte tenu du texte précédent. Ce mécanisme simple, lorsqu'il est adapté à des milliards de paramètres et entraîné sur des données à l'échelle d'Internet, produit des comportements remarquablement sophistiqués : comprendre des questions, suivre des instructions, raisonner sur des problèmes, résumer des documents, traduire des langues et générer du contenu créatif.

Pour les agents IA, les LLM offrent la possibilité d'interpréter les demandes des utilisateurs, de récupérer et de synthétiser des informations, de décider d'actions et de formuler des réponses. Cependant, un LLM à lui seul n’est pas un agent. Il a besoin d'une infrastructure environnante : récupération de connaissances (RAG), intégration d'outils, systèmes de mémoire et contrôles de flux de travail.

Grandes familles de LLM

GPT-4 et GPT-4o (OpenAI) : Parmi les modèles polyvalents les plus performants. Raisonnement solide, suivi des instructions et appel de fonctions. GPT-4o offre des réponses plus rapides et des capacités multimodales. Largement disponible via l'API et utilisé par de nombreuses plateformes d'agents IA.
Famille Claude 3 (Anthropique) : Opus pour un raisonnement complexe, Sonnet pour des performances équilibrées, Haiku pour la rapidité et la rentabilité. Connu pour ses pratiques de sécurité rigoureuses, ses longues fenêtres contextuelles et son suivi d'instructions nuancé. Populaire pour les applications d’entreprise.
Gémeaux (Google) : Modèles Pro et Ultra dotés de fortes capacités multimodales. Intégration native avec l'écosystème de Google. Modèles Flash pour des réponses plus rapides. Raisonnement compétitif et capacités de codage.
Lama (méta) : Modèles ouverts pouvant fonctionner sur votre propre infrastructure. Llama 3 offre des performances compétitives avec l'avantage du contrôle et de la personnalisation des données. Nécessite une configuration plus technique.
Mistral et autres : Modèles européens avec un bon rapport performance/coût. Souvent utilisé pour des déploiements spécialisés ou des configurations à coûts optimisés.

Capacités

Les LLM modernes peuvent effectuer un large éventail de tâches pertinentes pour les agents d'IA :

Compréhension du langage naturel : Analysez les demandes des utilisateurs, identifiez l'intention, extrayez les informations clés et gérez les variations de formulation.
Instruction suivante : Exécutez des instructions détaillées sur le format, le ton, les contraintes et les étapes du flux de travail.
Raisonnement : Résolvez des problèmes en plusieurs étapes, envisagez des alternatives et expliquez les décisions.
Appel de fonction : Structurez les sorties pour déclencher des outils externes, des API et des flux de travail.
Gestion du contexte : Conservez l’historique des conversations et faites référence aux déclarations antérieures.
Traitement multimodal : De nombreux modèles peuvent comprendre les images, l'audio et les documents ainsi que le texte.

Limites

Comprendre les limites du LLM est essentiel pour créer des agents d'IA fiables :

Hallucinations : Les LLM peuvent générer des informations plausibles mais fausses. Ils ne font pas de distinction entre les connaissances qu’ils possèdent et les modèles qu’ils déduisent. Mettez toujours à la terre les sorties LLM dans des sources vérifiées.
Aucun accès inhérent aux connaissances : Les LLM n'ont pas d'accès direct aux données, politiques ou informations en temps réel de votre entreprise. Ils savent uniquement ce qu'il y avait dans leurs données de formation et ce que vous fournissez via le contexte ou la récupération.
Seuils de connaissances : Les données d'entraînement ont une date limite. Les modèles ne connaissent pas les événements récents, les politiques mises à jour ou les informations sur les nouveaux produits, sauf si cela est fourni via RAG.
Échecs de raisonnement : Un raisonnement complexe peut échouer de manière subtile. Les modèles peuvent commettre des erreurs logiques, manquer des cas extrêmes ou parvenir à des conclusions incorrectes en toute confiance.
Sensibilité rapide : De petits changements dans la formulation peuvent produire des résultats différents. Les résultats peuvent varier d’une exécution à l’autre sur la même entrée.
Failles de sécurité : Une injection rapide peut remplacer les instructions. Les modèles peuvent être amenés à révéler des modèles de données d’entraînement ou à contourner les contraintes.
Coût et latence : Les modèles plus grands sont plus lents et plus chers par jeton. Les longues conversations et les recherches complexes augmentent les coûts.

Facteurs de sélection du modèle

Lors de l'évaluation des plates-formes d'agents IA, tenez compte de ces facteurs liés au LLM :

Choix du modèle : La plateforme vous permet-elle de choisir des modèles ou est-elle limitée à un seul fournisseur ? Pouvez-vous mélanger des modèles pour différentes tâches ?
Performance sur vos tâches : Testez les modèles par rapport à votre ensemble d’évaluation spécifique, et non à des références génériques. Un modèle qui excelle dans le codage peut avoir des difficultés avec vos conversations d'assistance.
Latence : Quels temps de réponse le modèle offre-t-il sous charge ? Comment la latence change-t-elle en fonction de la longueur et de la complexité du contexte ?
Coût : Quel est le coût par conversation, par jeton, par appel d'outil ? Comment les coûts évoluent-ils avec l’utilisation ?
Confidentialité des données : Où le modèle est-il hébergé ? Les données quittent-elles votre région ? Quelles sont les politiques de conservation des données et de formation du fournisseur ?
Stabilité : À quelle fréquence le modèle change-t-il ? Pouvez-vous épingler des versions spécifiques ? Que se passe-t-il lorsque le fournisseur est mis à jour ?

LLM en architecture d'agents IA

Le LLM est un élément d’un système plus vaste :

Traitement des entrées : Les demandes des utilisateurs passent par la détection d'intention, l'extraction d'entités et l'assemblage de contexte avant d'atteindre le LLM.
Récupération de connaissances : Les systèmes RAG récupèrent les documents, politiques et données pertinents pour étayer les réponses du LLM.
Intégration des outils : L'appel de fonction permet au LLM de déclencher des actions, mais l'exécution a lieu en dehors du modèle.
Filtrage des réponses : Les résultats peuvent passer par la modération, la détection des informations personnelles et la vérification des règles métier avant d'atteindre les utilisateurs.
Systèmes de mémoire : L'historique des conversations et le contexte utilisateur sont stockés et récupérés séparément du LLM lui-même.

Ce que les acheteurs devraient demander

Quels LLM la plateforme prend-elle en charge ? Puis-je choisir ou changer de modèle ?
Comment la plateforme gère-t-elle les mises à jour et les versions des modèles ?
Quel est le modèle de tarification pour l’utilisation du LLM ? Y a-t-il des plafonds ou des frais de dépassement ?
Comment la plateforme atténue-t-elle les hallucinations et garantit-elle des réponses fondées ?
Que se passe-t-il lorsque le modèle principal tombe en panne ? Existe-t-il des options de secours ?
Puis-je apporter mon propre modèle ou exécuter des modèles sur mon infrastructure ?
Comment les résultats du modèle sont-ils enregistrés et vérifiés pour leur conformité ?

Agent IA - L'architecture système autour du LLM
RAG - Génération augmentée de récupération pour la base des connaissances
Prompt Engineering - Conception d'instructions pour le LLM
IA multimodale - LLM étendus aux images, à l'audio et plus encore