3 Punkte von GN⁺ 2025-07-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • In modernen großen Sprachmodellen wurden lange Kontextfenster mit bis zu 1 Million Tokens eingeführt, was Erwartungen an einen sprunghaften Leistungsanstieg von Agenten geweckt hat
  • In der Praxis führt ein langer Kontext jedoch nicht zu besseren Antworten, sondern verursacht durch Kontextvergiftung, Fehler, Verwirrung und Konflikte eher Systemausfälle
  • Kontextvergiftung (Poisoning), Kontextablenkung (Distraction), Kontextverwirrung (Confusion) und Kontextkonflikte (Clash) sind die typischen Problemfelder
  • Diese Probleme wirken sich besonders stark auf Agenten in komplexen Abläufen aus, etwa bei mehreren Informationsquellen, Tool-Anbindungen und mehrstufigem Reasoning
  • In einem späteren Beitrag sollen praktische Lösungsansätze und Vermeidungsstrategien behandelt werden

Warum Kontextmanagement wichtig ist

  • Aktuelle große Frontier-Modelle bieten lange Kontextfenster mit Unterstützung für bis zu 1 Million Tokens
  • Viele erwarten, dass man in ein großes Fenster einfach alle Tools, Dokumente und Anweisungen laden kann, ohne Probleme zu bekommen
  • Tatsächlich führt Kontextüberlastung jedoch zu verschiedensten Fehlfunktionen und ist insbesondere in agentischen Anwendungen ein kritisches Problem

Kontextvergiftung (Context Poisoning)

  • Kontextvergiftung beschreibt das Phänomen, dass Halluzinationen oder Fehler in den Kontext gelangen und dann wiederholt referenziert werden
  • Der technische Bericht zu Deep Minds Gemini 2.5 beschreibt Fälle, in denen während eines Spiels ein falscher Spielstatus in Ziel- oder Zusammenfassungsabschnitten verbleibt und den Agenten dazu bringt, wiederholt sinnlose Strategien und unmögliche Ziele zu verfolgen
  • Ein solcher vergifteter Kontext trübt das Urteilsvermögen eines Agenten kurzfristig oder auch über längere Zeit

Kontextablenkung (Context Distraction)

  • Kontextablenkung tritt auf, wenn der Kontext so lang wird, dass das Modell sich übermäßig auf den Kontext konzentriert statt auf während des Trainings Gelerntes
  • Selbst im 1M+-Token-Fenster von Gemini 2.5 Pro beginnt das Modell in der Praxis bei mehr als 100.000 Tokens vor allem frühere Historie zu wiederholen, wodurch kreative Planung schwierig wird
  • Untersuchungen von Databricks zeigen, dass bei Llama 3.1 405b die Genauigkeit bereits bei 32.000 Tokens stark einbricht
  • Das deutet darauf hin, dass extrem große Fenster in der Realität vor allem für Zusammenfassung (summarization) und Faktensuche (retrieval) nützlich sind

Kontextverwirrung (Context Confusion)

  • Wenn zu viele Tools oder Definitionen in den Kontext gepackt werden, erzeugt das Modell minderwertige Antworten, etwa durch unnötige oder unpassende Tool-Aufrufe
  • Laut Berkeleys Function-Calling Leaderboard sinkt die Leistung aller Modelle, je mehr Tools bereitgestellt werden, und unnötige Aufrufe treten häufig auf
  • Im GeoEngine-Benchmark-Paper scheiterte das Modell Llama 3.1 8b in einem Szenario mit 46 Tools, war aber erfolgreich, wenn nur 19 bereitgestellt wurden
  • Informationen im Kontext werden vom Modell als etwas wahrgenommen, das es zwingend berücksichtigen muss, wodurch unnötiges Rauschen Probleme verursacht

Kontextkonflikte (Context Clash)

  • Kontextkonflikte bezeichnen einen Zustand, in dem zwischen mehrstufig gesammelten Informationen oder Tool-Beschreibungen widersprüchliche oder gegensätzliche Inhalte bestehen
  • Forschungen von Microsoft und Salesforce zeigen, dass dieses Phänomen in Multi-Turn-Gesprächen zu durchschnittlich 39 % Leistungsabfall führt
  • Der Grund liegt in einer Struktur, bei der in frühen Antworten falsche Annahmen entstehen und spätere Antworten sich übermäßig stark darauf stützen
  • Beim Verbinden mit externen Tools wie MCP steigt das Risiko solcher Konflikte

Fazit und Ausblick

  • Das Aufkommen von Kontexten mit einer Million Tokens galt als Innovation, tatsächlich nimmt jedoch die Zahl neuer Fehlertypen wie Vergiftung, Ablenkung, Verwirrung und Konflikte zu
  • Diese Probleme sind besonders kritisch für Agentensysteme, in denen sich mehrfache Informationsbeschaffung, schrittweise Tool-Verknüpfung und lange Gesprächsverläufe ansammeln
  • Als Gegenmaßnahmen kommen verschiedene Strategien infrage, etwa dynamisches Tool-Loading und Kontextisolierung; sie sollen in einem Folgebeitrag konkret behandelt werden

Nächster Beitrag: „Wie man seinen Kontext repariert

Noch keine Kommentare.

Noch keine Kommentare.