Mémoire de l'agent IA : contexte et historique des conversations

Ce que signifie la mémoire en pratique

Pour les acheteurs professionnels, la mémoire des agents IA ne consiste pas à donner à l’IA une conscience humaine. Il s’agit de maintenir suffisamment de contexte pour avoir des conversations cohérentes et efficaces qui ne frustrent pas les clients en leur demandant de répéter des informations.

Sans mémoire, chaque interaction repart de zéro. L'agent ne peut pas faire référence à ce que le client vient de dire, se rappeler qu'un problème a déjà été discuté ou s'appuyer sur des étapes de résolution de problème précédentes. Grâce à la mémoire, l'agent peut maintenir la cohérence des conversations, personnaliser les interactions et offrir le type de continuité que les clients attendent des agents humains.

Types de mémoire

Mémoire à court terme (mémoire de travail) : Couvre la session de conversation en cours. Inclut les messages récents, le contexte recueilli lors de l'interaction et l'état actuel du flux de travail. C'est ce qui permet à l'agent de répondre « et ma deuxième commande ? » sans le contexte de reformulation du client.

Mémoire à long terme : Persiste sur plusieurs sessions et jours. Comprend l'historique des conversations passées, les préférences de l'utilisateur, les informations de compte et les modèles appris au fil du temps. Cela permet à l'agent de dire « Je vois que vous nous avez contacté la semaine dernière à propos du même problème » sans demander au client de s'expliquer.

Mémoire épisodique : Enregistrements d'interactions passées spécifiques : ce qui a été discuté, ce qui a été résolu, quelles mesures ont été prises. Utile pour la continuité lorsqu'un client revient avec des questions de suivi.

Mémoire sémantique : Faits et connaissances sur l'utilisateur ou le contexte commercial : préférences, détails du compte, historique des relations. Moins de conversations spécifiques et plus de compréhension accumulée.

Mémoire procédurale : Connaissance de la façon de gérer des situations récurrentes en fonction des interactions passées. Des modèles tels que « ce client préfère le suivi par e-mail » ou « ce type de problème nécessite généralement une escalade ».

Pourquoi la mémoire est importante

Cohérence des conversations : Les conversations à plusieurs tours nécessitent de la mémoire. Si un client mentionne un numéro de commande, puis pose des questions sur « l'expédition », l'agent doit relier « l'expédition » à la commande mentionnée.

Efficacité : La mémoire réduit la répétition. Les clients ne devraient pas avoir à réitérer leur problème, leur numéro de compte ou leur contexte à chaque fois qu'ils interagissent.

Personnalisation : La mémoire à long terme permet des expériences personnalisées : saluer les clients qui reviennent, faire référence à leurs préférences passées et adapter les réponses aux besoins individuels.

Qualité de l'escalade : Lorsqu'un agent se transforme en humain, la mémoire garantit que l'humain reçoit un contexte complet. Le client ne devrait pas avoir à recommencer.

Cohérence : La mémoire aide l'agent à rester cohérent au sein d'une conversation et d'une session à l'autre. Des réponses contradictoires nuisent à la confiance.

Architectures de mémoire

Différentes plates-formes implémentent la mémoire de différentes manières :

Fenêtre contextuelle : L'approche la plus simple : inclure l'historique des conversations récentes dans chaque invite envoyée au LLM. Limité par la taille de la fenêtre contextuelle du modèle. Les messages plus anciens disparaissent à mesure que la conversation se développe.
Basé sur un résumé : L’historique des conversations plus anciennes est résumé plutôt que inclus textuellement. Équilibre la rétention du contexte avec les limites des jetons.
Mémoire vectorielle : Les interactions passées sont intégrées et stockées dans une base de données vectorielles. Les souvenirs pertinents sont récupérés sur la base de leur similarité avec le contexte actuel.
Mémoire structurée : Les faits clés sont extraits et stockés dans des formats structurés (préférences utilisateur, données de compte, historique des problèmes) pour une récupération fiable.
Approches hybrides : Combinez plusieurs méthodes : contexte récent verbatim, historique plus ancien résumé, faits clés structurés, interactions passées pertinentes récupérées via des vecteurs.

Confidentialité et conformité

Les systèmes de mémoire soulèvent d’importantes considérations en matière de confidentialité :

Conservation des données : Combien de temps l’historique des conversations est-il stocké ? Y a-t-il une suppression automatique après un certain temps ? Les clients peuvent-ils demander la suppression ?
Contrôles d'accès : Qui peut consulter l’historique des conversations et le contenu de la mémoire ? Existe-t-il des contrôles d'accès basés sur les rôles ?
Visibilité client : Les clients peuvent-ils voir ce que l’agent se souvient d’eux ? Peuvent-ils corriger ou supprimer les informations stockées ?
Utilisation de la formation : Les données de mémoire sont-elles utilisées pour entraîner ou améliorer des modèles ? Quel consentement existe-t-il ?
Stockage géographique : Où sont stockées les données de la mémoire ? Répond-il aux exigences de conformité régionales telles que le RGPD ?
Données sensibles : Comment le système gère-t-il les informations personnelles, les informations de paiement ou tout autre contenu sensible en mémoire ?

Limites et coûts de mémoire

La mémoire a des contraintes pratiques :

Limites de la fenêtre contextuelle : Les LLM ne peuvent traiter qu'une certaine quantité de contexte. De longues conversations ou un historique détaillé peuvent atteindre leurs limites.
Coûts des jetons : L'inclusion de mémoire dans les invites augmente l'utilisation des jetons, ce qui augmente les coûts par conversation.
Frais de stockage : Le stockage de l’historique des conversations et des intégrations nécessite des ressources de base de données.
Latence de récupération : La récupération des mémoires pertinentes ajoute du temps de traitement.
Dégradation de la pertinence : Tous les souvenirs ne sont pas également pertinents. Une mauvaise récupération de la mémoire peut inclure un contexte non pertinent qui confond l'agent.

Mémoire multicanal

Les clients interagissent sur plusieurs canaux : chat, e-mail, téléphone, réseaux sociaux. La mémoire devrait fonctionner sur ces canaux. Une conversation démarrée sur le chat web doit se poursuivre au téléphone sans que le client ne se répète. Cela nécessite :

Identité client unifiée : Reconnaître le même client sur tous les canaux.
Stockage de mémoire partagée : Un système de mémoire central accessible depuis tous les canaux.
Transfert de contexte : Transmission du contexte approprié lorsque les conversations se déplacent entre les canaux.

Ce que les acheteurs devraient demander

Combien de temps l’historique des conversations est-il conservé ? Puis-je configurer des périodes de conservation ?
Quelle architecture mémoire la plateforme utilise-t-elle ? Comment gère-t-il les longues conversations ?
L’agent peut-il faire référence aux interactions précédentes ? Jusqu'où remonte-t-il ?
Comment fonctionne la mémoire sur tous les canaux ?
Que voient les agents humains lors du transfert ? Reçoivent-ils le contexte complet ?
Quels sont les coûts de stockage et de récupération de la mémoire ?
Comment les clients accèdent-ils, corrigent-ils ou suppriment-ils leurs informations stockées ?
Les données de mémoire sont-elles utilisées pour la formation du modèle ? Comment est géré le consentement ?
Quelles fonctionnalités de confidentialité et de conformité existent pour les données en mémoire ?

Tests d'évaluation

Test multitours : Ayez une conversation en plusieurs étapes où les tours ultérieurs font référence à des informations antérieures. Vérifiez que l'agent conserve le contexte.
Essai de référence : Reportez-vous aux informations mentionnées précédemment dans des termes différents. Vérifiez si l'agent connecte les références.
Test inter-sessions : Revenez dans une nouvelle session et faites référence à la conversation précédente. Vérifiez la mémoire à long terme.
Test d'escalade : Passez à l'humain et vérifiez que l'humain reçoit le contexte complet sans demander au client de répéter.
Test de confidentialité : Tentative d'accès aux contrôles de mémoire en tant que client. Vérifiez la capacité à afficher et à supprimer les informations stockées.

Agent IA - Le système qui utilise la mémoire
RAG - Récupération de connaissances, liée à la récupération de mémoire
LLM - Fenêtres contextuelles et capacité mémoire
Human-in-the-Loop - Mémoire pour le contexte de transfert