KI-Agentengedächtnis: Kontext- und Gesprächsverlauf

Was Erinnerung in der Praxis bedeutet

Für Geschäftskäufer geht es beim KI-Agentengedächtnis nicht darum, der KI ein menschenähnliches Bewusstsein zu verleihen. Es geht darum, genügend Kontext beizubehalten, um kohärente, effiziente Gespräche zu führen, die Kunden nicht dadurch frustrieren, dass sie Informationen wiederholen müssen.

Ohne Gedächtnis beginnt jede Interaktion bei Null. Der Agent kann sich nicht auf das beziehen, was der Kunde gerade gesagt hat, sich daran erinnern, dass ein Problem bereits besprochen wurde, oder auf früheren Schritten zur Problemlösung aufbauen. Mit dem Gedächtnis kann der Agent die Konversationskohärenz aufrechterhalten, Interaktionen personalisieren und die Art von Kontinuität bieten, die Kunden von menschlichen Agenten erwarten.

Arten von Gedächtnis

Kurzzeitgedächtnis (Arbeitsgedächtnis): Deckt die aktuelle Gesprächssitzung ab. Enthält aktuelle Nachrichten, während der Interaktion erfassten Kontext und den aktuellen Workflow-Status. Dadurch kann der Agent antworten: „Was ist mit meiner zweiten Bestellung?“ ohne dass der Kunde den Kontext erneut angibt.

Langzeitgedächtnis: Bleibt über mehrere Sitzungen und Tage hinweg bestehen. Beinhaltet den Verlauf vergangener Gespräche, Benutzerpräferenzen, Kontoinformationen und im Laufe der Zeit gelernte Muster. Auf diese Weise kann der Agent sagen: „Wie ich sehe, haben Sie uns letzte Woche wegen des gleichen Problems kontaktiert“, ohne dass der Kunde dies erklären muss.

Episodisches Gedächtnis: Aufzeichnungen über spezifische Interaktionen in der Vergangenheit: Was wurde besprochen, was wurde gelöst, welche Maßnahmen wurden ergriffen. Nützlich für die Kontinuität, wenn ein Kunde mit Folgefragen zurückkommt.

Semantisches Gedächtnis: Fakten und Wissen über den Benutzer- oder Geschäftskontext: Vorlieben, Kontodetails, Beziehungsverlauf. Weniger geht es um konkrete Gespräche und mehr um gesammeltes Verständnis.

Prozedurales Gedächtnis: Kenntnisse über den Umgang mit wiederkehrenden Situationen basierend auf vergangenen Interaktionen. Muster wie „Dieser Kunde bevorzugt die Nachverfolgung per E-Mail“ oder „Dieser Problemtyp erfordert normalerweise eine Eskalation.“

Warum Erinnerung wichtig ist

Konversationskohärenz: Gespräche mit mehreren Runden erfordern Speicher. Wenn ein Kunde eine Bestellnummer angibt und dann nach „dem Versand“ fragt, muss der Agent „den Versand“ mit der genannten Bestellung in Verbindung bringen.

Effizienz: Das Gedächtnis reduziert Wiederholungen. Kunden sollten ihr Problem, ihre Kontonummer oder ihren Kontext nicht bei jeder Interaktion erneut angeben müssen.

Personalisierung: Das Langzeitgedächtnis ermöglicht personalisierte Erlebnisse: Begrüßung wiederkehrender Kunden, Rückgriff auf vergangene Vorlieben und Anpassung der Antworten an individuelle Bedürfnisse.

Eskalationsqualität: Wenn ein Agent zu einem Menschen eskaliert, stellt das Gedächtnis sicher, dass der Mensch den vollständigen Kontext erhält. Der Kunde sollte nicht von vorne beginnen müssen.

Konsistenz: Der Speicher hilft dem Agenten, innerhalb eines Gesprächs und über Sitzungen hinweg konsistent zu bleiben. Widersprüchliche Antworten schaden dem Vertrauen.

Speicherarchitekturen

Verschiedene Plattformen implementieren Speicher auf unterschiedliche Weise:

Kontextfenster: Der einfachste Ansatz: Fügen Sie in jede an das LLM gesendete Eingabeaufforderung den aktuellen Konversationsverlauf ein. Begrenzt durch die Kontextfenstergröße des Modells. Ältere Nachrichten verschwinden, wenn die Konversation wächst.
Zusammenfassungsbasiert: Ältere Gesprächsverläufe werden zusammengefasst und nicht wörtlich übernommen. Gleicht die Kontextaufbewahrung mit Token-Grenzwerten aus.
Vektorspeicher: Vergangene Interaktionen werden eingebettet und in einer Vektordatenbank gespeichert. Relevante Erinnerungen werden basierend auf der Ähnlichkeit zum aktuellen Kontext abgerufen.
Strukturiertes Gedächtnis: Wichtige Fakten werden extrahiert und in strukturierten Formaten (Benutzereinstellungen, Kontodaten, Problemverlauf) gespeichert, um einen zuverlässigen Abruf zu ermöglichen.
Hybride Ansätze: Kombinieren Sie mehrere Methoden: aktueller Kontext wörtlich, ältere Geschichte zusammengefasst, wichtige Fakten strukturiert, relevante vergangene Interaktionen über Vektoren abgerufen.

Datenschutz und Compliance

Speichersysteme werfen erhebliche Datenschutzaspekte auf:

Datenaufbewahrung: Wie lange wird der Gesprächsverlauf gespeichert? Gibt es eine automatische Löschung nach einer gewissen Zeit? Können Kunden eine Löschung beantragen?
Zugangskontrollen: Wer kann den Gesprächsverlauf und die Speicherinhalte einsehen? Gibt es rollenbasierte Zugriffskontrollen?
Kundensichtbarkeit: Können Kunden sehen, woran sich der Agent über sie erinnert? Können sie gespeicherte Informationen korrigieren oder löschen?
Trainingsnutzung: Werden Speicherdaten zum Trainieren oder Verbessern von Modellen verwendet? Welche Einwilligung liegt vor?
Geografische Speicherung: Wo werden Speicherdaten gespeichert? Erfüllt es regionale Compliance-Anforderungen wie die DSGVO?
Sensible Daten: Wie geht das System mit PII, Zahlungsinformationen oder anderen sensiblen Inhalten im Speicher um?

Speichergrenzen und Kosten

Das Gedächtnis unterliegt praktischen Einschränkungen:

Grenzen des Kontextfensters: LLMs können nur eine bestimmte Menge an Kontext verarbeiten. Lange Gespräche oder eine ausführliche Anamnese können an Grenzen stoßen.
Token-Kosten: Durch die Einbeziehung von Speicher in Eingabeaufforderungen erhöht sich die Token-Nutzung, was die Kosten pro Konversation erhöht.
Lagerkosten: Das Speichern des Gesprächsverlaufs und der Einbettungen erfordert Datenbankressourcen.
Abruflatenz: Das Abrufen relevanter Erinnerungen erhöht die Verarbeitungszeit.
Relevanzabfall: Nicht alle Erinnerungen sind gleichermaßen relevant. Eine schlechte Erinnerungsabfrage kann irrelevanten Kontext beinhalten, der den Agenten verwirrt.

Kanalübergreifender Speicher

Kunden interagieren über mehrere Kanäle: Chat, E-Mail, Telefon, soziale Medien. Der Speicher sollte über diese Kanäle hinweg funktionieren. Ein im Webchat begonnenes Gespräch sollte am Telefon fortgeführt werden, ohne dass sich der Kunde wiederholt. Dies erfordert:

Einheitliche Kundenidentität: Den gleichen Kunden über alle Kanäle hinweg erkennen.
Gemeinsamer Speicher: Ein zentrales Speichersystem, auf das von allen Kanälen aus zugegriffen werden kann.
Kontextübertragung: Übergabe des entsprechenden Kontexts, wenn Gespräche zwischen Kanälen wechseln.

Was Käufer fragen sollten

Wie lange wird der Gesprächsverlauf gespeichert? Kann ich Aufbewahrungsfristen konfigurieren?
Welche Speicherarchitektur verwendet die Plattform? Wie geht es mit langen Gesprächen um?
Kann der Agent auf frühere Interaktionen verweisen? Wie weit zurück?
Wie funktioniert das Gedächtnis kanalübergreifend?
Was sehen menschliche Agenten während der Übergabe? Erhalten sie den vollständigen Kontext?
Wie hoch sind die Kosten für die Speicherung und den Abruf des Speichers?
Wie können Kunden auf ihre gespeicherten Daten zugreifen, diese korrigieren oder löschen?
Werden Speicherdaten für das Modelltraining verwendet? Wie wird mit der Einwilligung umgegangen?
Welche Datenschutz- und Compliance-Funktionen gibt es für Speicherdaten?

Bewertungstests

Multiturn-Test: Führen Sie ein mehrstufiges Gespräch, bei dem spätere Gesprächspartner auf frühere Informationen verweisen. Stellen Sie sicher, dass der Agent den Kontext beibehält.
Referenztest: Beziehen Sie sich mit anderen Worten auf die zuvor genannten Informationen. Überprüfen Sie, ob der Agent die Referenzen verbindet.
Sitzungsübergreifender Test: Kehren Sie in einer neuen Sitzung zurück und verweisen Sie auf das vorherige Gespräch. Überprüfen Sie das Langzeitgedächtnis.
Eskalationstest: Leiten Sie es an den Menschen weiter und stellen Sie sicher, dass der Mensch den vollständigen Kontext erhält, ohne den Kunden um eine Wiederholung zu bitten.
Datenschutztest: Versuchen Sie, als Kunde auf die Speichersteuerung zuzugreifen. Überprüfen Sie die Fähigkeit, gespeicherte Informationen anzuzeigen und zu löschen.

KI-Agent – Das System, das Speicher verwendet
RAG - Wissensabruf im Zusammenhang mit dem Abrufen von Erinnerungen
LLM - Kontextfenster und Speicherkapazität
Human-in-the-Loop – Speicher für Übergabekontext