Warum lange Kontexte scheitern
(dbreunig.com)- In modernen großen Sprachmodellen wurden lange Kontextfenster mit bis zu 1 Million Tokens eingeführt, was Erwartungen an einen sprunghaften Leistungsanstieg von Agenten geweckt hat
- In der Praxis führt ein langer Kontext jedoch nicht zu besseren Antworten, sondern verursacht durch Kontextvergiftung, Fehler, Verwirrung und Konflikte eher Systemausfälle
- Kontextvergiftung (Poisoning), Kontextablenkung (Distraction), Kontextverwirrung (Confusion) und Kontextkonflikte (Clash) sind die typischen Problemfelder
- Diese Probleme wirken sich besonders stark auf Agenten in komplexen Abläufen aus, etwa bei mehreren Informationsquellen, Tool-Anbindungen und mehrstufigem Reasoning
- In einem späteren Beitrag sollen praktische Lösungsansätze und Vermeidungsstrategien behandelt werden
Warum Kontextmanagement wichtig ist
- Aktuelle große Frontier-Modelle bieten lange Kontextfenster mit Unterstützung für bis zu 1 Million Tokens
- Viele erwarten, dass man in ein großes Fenster einfach alle Tools, Dokumente und Anweisungen laden kann, ohne Probleme zu bekommen
- Tatsächlich führt Kontextüberlastung jedoch zu verschiedensten Fehlfunktionen und ist insbesondere in agentischen Anwendungen ein kritisches Problem
Kontextvergiftung (Context Poisoning)
- Kontextvergiftung beschreibt das Phänomen, dass Halluzinationen oder Fehler in den Kontext gelangen und dann wiederholt referenziert werden
- Der technische Bericht zu Deep Minds Gemini 2.5 beschreibt Fälle, in denen während eines Spiels ein falscher Spielstatus in Ziel- oder Zusammenfassungsabschnitten verbleibt und den Agenten dazu bringt, wiederholt sinnlose Strategien und unmögliche Ziele zu verfolgen
- Ein solcher vergifteter Kontext trübt das Urteilsvermögen eines Agenten kurzfristig oder auch über längere Zeit
Kontextablenkung (Context Distraction)
- Kontextablenkung tritt auf, wenn der Kontext so lang wird, dass das Modell sich übermäßig auf den Kontext konzentriert statt auf während des Trainings Gelerntes
- Selbst im 1M+-Token-Fenster von Gemini 2.5 Pro beginnt das Modell in der Praxis bei mehr als 100.000 Tokens vor allem frühere Historie zu wiederholen, wodurch kreative Planung schwierig wird
- Untersuchungen von Databricks zeigen, dass bei Llama 3.1 405b die Genauigkeit bereits bei 32.000 Tokens stark einbricht
- Das deutet darauf hin, dass extrem große Fenster in der Realität vor allem für Zusammenfassung (summarization) und Faktensuche (retrieval) nützlich sind
Kontextverwirrung (Context Confusion)
- Wenn zu viele Tools oder Definitionen in den Kontext gepackt werden, erzeugt das Modell minderwertige Antworten, etwa durch unnötige oder unpassende Tool-Aufrufe
- Laut Berkeleys Function-Calling Leaderboard sinkt die Leistung aller Modelle, je mehr Tools bereitgestellt werden, und unnötige Aufrufe treten häufig auf
- Im GeoEngine-Benchmark-Paper scheiterte das Modell Llama 3.1 8b in einem Szenario mit 46 Tools, war aber erfolgreich, wenn nur 19 bereitgestellt wurden
- Informationen im Kontext werden vom Modell als etwas wahrgenommen, das es zwingend berücksichtigen muss, wodurch unnötiges Rauschen Probleme verursacht
Kontextkonflikte (Context Clash)
- Kontextkonflikte bezeichnen einen Zustand, in dem zwischen mehrstufig gesammelten Informationen oder Tool-Beschreibungen widersprüchliche oder gegensätzliche Inhalte bestehen
- Forschungen von Microsoft und Salesforce zeigen, dass dieses Phänomen in Multi-Turn-Gesprächen zu durchschnittlich 39 % Leistungsabfall führt
- Der Grund liegt in einer Struktur, bei der in frühen Antworten falsche Annahmen entstehen und spätere Antworten sich übermäßig stark darauf stützen
- Beim Verbinden mit externen Tools wie MCP steigt das Risiko solcher Konflikte
Fazit und Ausblick
- Das Aufkommen von Kontexten mit einer Million Tokens galt als Innovation, tatsächlich nimmt jedoch die Zahl neuer Fehlertypen wie Vergiftung, Ablenkung, Verwirrung und Konflikte zu
- Diese Probleme sind besonders kritisch für Agentensysteme, in denen sich mehrfache Informationsbeschaffung, schrittweise Tool-Verknüpfung und lange Gesprächsverläufe ansammeln
- Als Gegenmaßnahmen kommen verschiedene Strategien infrage, etwa dynamisches Tool-Loading und Kontextisolierung; sie sollen in einem Folgebeitrag konkret behandelt werden
Nächster Beitrag: „Wie man seinen Kontext repariert“
Noch keine Kommentare.