Große Sprachmodelle (LLM) erklärt

Was ein LLM macht

Im Kern sagt ein LLM voraus, welcher Text aufgrund des vorherigen Textes als nächstes kommen sollte. Wenn dieser einfache Mechanismus auf Milliarden von Parametern skaliert und auf Daten im Internetmaßstab trainiert wird, führt er zu bemerkenswert ausgefeilten Verhaltensweisen: Fragen verstehen, Anweisungen befolgen, Probleme durchdenken, Dokumente zusammenfassen, Sprachen übersetzen und kreative Inhalte generieren.

Für KI-Agenten bieten LLMs die Möglichkeit, Benutzeranfragen zu interpretieren, Informationen abzurufen und zu synthetisieren, über Aktionen zu entscheiden und Antworten zu formulieren. Ein LLM allein ist jedoch kein Agent. Es benötigt eine umliegende Infrastruktur: Knowledge Retrieval (RAG), Tool-Integration, Speichersysteme und Workflow-Kontrollen.

Große LLM-Familien

GPT-4 und GPT-4o (OpenAI): Zu den leistungsfähigsten Allzweckmodellen. Starkes Denken, Befolgen von Anweisungen und Funktionsaufruf. GPT-4o bietet schnellere Reaktionen und multimodale Funktionen. Über die API weithin verfügbar und von vielen KI-Agent-Plattformen verwendet.
Familie Claude 3 (anthropisch): Opus für komplexes Denken, Sonett für ausgewogene Leistung, Haiku für Geschwindigkeit und Kosteneffizienz. Bekannt für strenge Sicherheitspraktiken, lange Kontextfenster und differenzierte Befolgung von Anweisungen. Beliebt für Unternehmensanwendungen.
Zwillinge (Google): Pro- und Ultra-Modelle mit starken multimodalen Fähigkeiten. Native Integration in das Google-Ökosystem. Flash-Modelle für schnellere Antworten. Wettbewerbsfähiges Denken und Programmierfähigkeiten.
Lama (Meta): Offene Modelle, die auf Ihrer eigenen Infrastruktur ausgeführt werden können. Llama 3 bietet wettbewerbsfähige Leistung mit dem Vorteil der Datenkontrolle und -anpassung. Erfordert mehr technische Einrichtung.
Mistral und andere: Europäische Modelle mit starkem Leistungs-Kosten-Verhältnis. Wird häufig für spezielle Bereitstellungen oder kostenoptimierte Konfigurationen verwendet.

Fähigkeiten

Moderne LLMs können eine Vielzahl von Aufgaben übernehmen, die für KI-Agenten relevant sind:

Verständnis natürlicher Sprache: Analysieren Sie Benutzeranfragen, identifizieren Sie Absichten, extrahieren Sie wichtige Informationen und behandeln Sie Variationen in der Formulierung.
Folgende Anleitung: Führen Sie detaillierte Anweisungen zu Format, Ton, Einschränkungen und Workflow-Schritten aus.
Begründung: Arbeiten Sie mehrstufige Probleme durch, prüfen Sie Alternativen und erläutern Sie Entscheidungen.
Funktionsaufruf: Strukturieren Sie Ausgaben, um externe Tools, APIs und Workflows auszulösen.
Kontextbehandlung: Behalten Sie den Gesprächsverlauf bei und verweisen Sie auf frühere Aussagen.
Multimodale Verarbeitung: Viele Modelle können neben Text auch Bilder, Audio und Dokumente verstehen.

Einschränkungen

Das Verständnis der LLM-Einschränkungen ist für den Aufbau zuverlässiger KI-Agenten von entscheidender Bedeutung:

Halluzination: LLMs können plausibel klingende, aber falsche Informationen generieren. Sie unterscheiden nicht zwischen dem Wissen, das sie haben, und den Mustern, die sie daraus ableiten. Erden Sie LLM-Ausgänge immer an verifizierten Quellen.
Kein inhärenter Wissenszugriff: LLMs haben keinen direkten Zugriff auf Ihre Geschäftsdaten, Richtlinien oder Echtzeitinformationen. Sie wissen nur, was in ihren Trainingsdaten enthalten war und was Sie durch Kontext oder Abruf bereitstellen.
Wissensgrenzen: Trainingsdaten haben ein Stichdatum. Models kennen keine aktuellen Ereignisse, aktualisierten Richtlinien oder neue Produktinformationen, es sei denn, sie werden von RAG bereitgestellt.
Argumentationsfehler: Komplexes Denken kann auf subtile Weise scheitern. Modelle können logische Fehler machen, Grenzfälle übersehen oder selbstbewusst zu falschen Schlussfolgerungen gelangen.
Sofortige Empfindlichkeit: Kleine Änderungen im Wortlaut können zu unterschiedlichen Ergebnissen führen. Die Ergebnisse können zwischen Läufen mit derselben Eingabe variieren.
Sicherheitslücken: Eine sofortige Injektion kann Anweisungen außer Kraft setzen. Modelle können dazu verleitet werden, Trainingsdatenmuster aufzudecken oder Einschränkungen zu umgehen.
Kosten und Latenz: Größere Modelle sind langsamer und teurer pro Token. Lange Gespräche und komplexe Abrufe erhöhen die Kosten.

Modellauswahlfaktoren

Berücksichtigen Sie bei der Bewertung von KI-Agent-Plattformen die folgenden LLM-bezogenen Faktoren:

Modellauswahl: Bietet die Plattform die Möglichkeit, Modelle auszuwählen, oder ist sie an einen Anbieter gebunden? Können Modelle für verschiedene Aufgaben gemischt werden?
Leistung bei Ihren Aufgaben: Testen Sie Modelle anhand Ihres spezifischen Bewertungssatzes, nicht anhand allgemeiner Benchmarks. Ein Modell, das sich beim Codieren auszeichnet, kann bei Ihren Supportgesprächen Schwierigkeiten haben.
Latenz: Welche Reaktionszeiten liefert das Modell unter Last? Wie ändert sich die Latenz mit der Kontextlänge und -komplexität?
Kosten: Wie hoch sind die Kosten pro Gespräch, pro Token und pro Tool-Aufruf? Wie skalieren die Kosten mit der Nutzung?
Datenschutz: Wo wird das Modell gehostet? Verlassen Daten Ihre Region? Welche Datenaufbewahrungs- und Schulungsrichtlinien gelten beim Anbieter?
Stabilität: Wie oft wechselt das Modell? Können Sie bestimmte Versionen anpinnen? Was passiert, wenn der Anbieter aktualisiert?

LLMs in der KI-Agentenarchitektur

Das LLM ist eine Komponente in einem größeren System:

Eingabeverarbeitung: Benutzeranfragen durchlaufen die Absichtserkennung, Entitätsextraktion und Kontextassemblierung, bevor sie das LLM erreichen.
Wissensabruf: RAG-Systeme rufen relevante Dokumente, Richtlinien und Daten ab, um die Antworten des LLM zu begründen.
Tool-Integration: Funktionsaufrufe ermöglichen es dem LLM, Aktionen auszulösen, die Ausführung erfolgt jedoch außerhalb des Modells.
Antwortfilterung: Ausgaben können Moderation, PII-Erkennung und Geschäftsregelprüfungen durchlaufen, bevor sie Benutzer erreichen.
Speichersysteme: Gesprächsverlauf und Benutzerkontext werden getrennt vom LLM selbst gespeichert und abgerufen.

Was Käufer fragen sollten

Welche LLMs unterstützt die Plattform? Kann ich Modelle auswählen oder wechseln?
Wie geht die Plattform mit Modellaktualisierungen und Versionierung um?
Welches Preismodell gilt für die LLM-Nutzung? Gibt es Obergrenzen oder Überschreitungsgebühren?
Wie lindert die Plattform Halluzinationen und sorgt für fundierte Reaktionen?
Was passiert, wenn das primäre Modell ausfällt? Gibt es Fallback-Optionen?
Kann ich mein eigenes Modell mitbringen oder Modelle auf meiner Infrastruktur ausführen?
Wie werden Modellausgaben protokolliert und auf Konformität überprüft?

KI-Agent - Die Systemarchitektur rund um das LLM
RAG - Retrieval Augmented Generation zur Wissensverankerung
Prompt Engineering - Gestaltungsanweisungen für das LLM
Multimodale KI – LLMs erweitert auf Bilder, Audio und mehr