Warum lange Kontexte scheitern

(dbreunig.com)

3 Punkte von GN⁺ 2025-07-06 | Noch keine Kommentare. | Auf WhatsApp teilen

In modernen großen Sprachmodellen wurden lange Kontextfenster mit bis zu 1 Million Tokens eingeführt, was Erwartungen an einen sprunghaften Leistungsanstieg von Agenten geweckt hat
In der Praxis führt ein langer Kontext jedoch nicht zu besseren Antworten, sondern verursacht durch Kontextvergiftung, Fehler, Verwirrung und Konflikte eher Systemausfälle
Kontextvergiftung (Poisoning), Kontextablenkung (Distraction), Kontextverwirrung (Confusion) und Kontextkonflikte (Clash) sind die typischen Problemfelder
Diese Probleme wirken sich besonders stark auf Agenten in komplexen Abläufen aus, etwa bei mehreren Informationsquellen, Tool-Anbindungen und mehrstufigem Reasoning
In einem späteren Beitrag sollen praktische Lösungsansätze und Vermeidungsstrategien behandelt werden

Warum Kontextmanagement wichtig ist

Aktuelle große Frontier-Modelle bieten lange Kontextfenster mit Unterstützung für bis zu 1 Million Tokens
Viele erwarten, dass man in ein großes Fenster einfach alle Tools, Dokumente und Anweisungen laden kann, ohne Probleme zu bekommen
Tatsächlich führt Kontextüberlastung jedoch zu verschiedensten Fehlfunktionen und ist insbesondere in agentischen Anwendungen ein kritisches Problem

Kontextvergiftung beschreibt das Phänomen, dass Halluzinationen oder Fehler in den Kontext gelangen und dann wiederholt referenziert werden
Der technische Bericht zu Deep Minds Gemini 2.5 beschreibt Fälle, in denen während eines Spiels ein falscher Spielstatus in Ziel- oder Zusammenfassungsabschnitten verbleibt und den Agenten dazu bringt, wiederholt sinnlose Strategien und unmögliche Ziele zu verfolgen
Ein solcher vergifteter Kontext trübt das Urteilsvermögen eines Agenten kurzfristig oder auch über längere Zeit

Kontextablenkung tritt auf, wenn der Kontext so lang wird, dass das Modell sich übermäßig auf den Kontext konzentriert statt auf während des Trainings Gelerntes
Selbst im 1M+-Token-Fenster von Gemini 2.5 Pro beginnt das Modell in der Praxis bei mehr als 100.000 Tokens vor allem frühere Historie zu wiederholen, wodurch kreative Planung schwierig wird
Untersuchungen von Databricks zeigen, dass bei Llama 3.1 405b die Genauigkeit bereits bei 32.000 Tokens stark einbricht
Das deutet darauf hin, dass extrem große Fenster in der Realität vor allem für Zusammenfassung (summarization) und Faktensuche (retrieval) nützlich sind

Wenn zu viele Tools oder Definitionen in den Kontext gepackt werden, erzeugt das Modell minderwertige Antworten, etwa durch unnötige oder unpassende Tool-Aufrufe
Laut Berkeleys Function-Calling Leaderboard sinkt die Leistung aller Modelle, je mehr Tools bereitgestellt werden, und unnötige Aufrufe treten häufig auf
Im GeoEngine-Benchmark-Paper scheiterte das Modell Llama 3.1 8b in einem Szenario mit 46 Tools, war aber erfolgreich, wenn nur 19 bereitgestellt wurden
Informationen im Kontext werden vom Modell als etwas wahrgenommen, das es zwingend berücksichtigen muss, wodurch unnötiges Rauschen Probleme verursacht

Kontextkonflikte bezeichnen einen Zustand, in dem zwischen mehrstufig gesammelten Informationen oder Tool-Beschreibungen widersprüchliche oder gegensätzliche Inhalte bestehen
Forschungen von Microsoft und Salesforce zeigen, dass dieses Phänomen in Multi-Turn-Gesprächen zu durchschnittlich 39 % Leistungsabfall führt
Der Grund liegt in einer Struktur, bei der in frühen Antworten falsche Annahmen entstehen und spätere Antworten sich übermäßig stark darauf stützen
Beim Verbinden mit externen Tools wie MCP steigt das Risiko solcher Konflikte

Das Aufkommen von Kontexten mit einer Million Tokens galt als Innovation, tatsächlich nimmt jedoch die Zahl neuer Fehlertypen wie Vergiftung, Ablenkung, Verwirrung und Konflikte zu
Diese Probleme sind besonders kritisch für Agentensysteme, in denen sich mehrfache Informationsbeschaffung, schrittweise Tool-Verknüpfung und lange Gesprächsverläufe ansammeln
Als Gegenmaßnahmen kommen verschiedene Strategien infrage, etwa dynamisches Tool-Loading und Kontextisolierung; sie sollen in einem Folgebeitrag konkret behandelt werden