Wie man Probleme mit langem Kontext löst

(dbreunig.com)

9 Punkte von GN⁺ 2025-07-06 | Noch keine Kommentare. | Auf WhatsApp teilen

Bei der Verwendung von langem Kontext treten typischerweise verschiedene Probleme der Informationsverwaltung auf, etwa Kontextverschmutzung, Verwirrung, Konflikte und Ablenkung
Informationsmanagement ist der Kernpunkt, und falsche Informationen wirken sich direkt negativ auf die Qualität der Ergebnisse aus
Wichtige Lösungsansätze sind Taktiken wie RAG, Tool Loadout, Context Quarantine, Pruning, Summarization, Offloading
Auch wenn das Kontextfenster moderner LLMs groß ist, sollte man beachten, dass der Missbrauch unnötiger Informationen in der Praxis weiterhin echte Probleme verursacht
Jede dieser Taktiken hilft Agent-Designern erheblich dabei, Kontext systematisch zu verwalten und Effizienz sowie Genauigkeit zu verbessern

Probleme bei langem Kontext und Zusammenfassung

Bei der Verwendung langen Kontexts können im System typischerweise folgende Fehlertypen auftreten

Kontextverschmutzung: Halluzinationen oder Fehler gelangen in den Kontext und werden wiederholt referenziert
Kontextablenkung: Der Kontext wird so lang, dass sich das Modell statt auf sein ursprünglich Gelerntes nur noch auf den Kontext konzentriert
Kontextverwirrung: Unnötige Informationen werden hinzugefügt und führen zu Antworten geringerer Qualität
Kontextkonflikt: Neu hinzugefügte Informationen oder Tools stehen im Widerspruch zu bereits vorhandenem Wissen

All diese Probleme gehen auf Informationsmanagement zurück; wie das Sprichwort „Garbage in, garbage out“ aus der Programmierung sagt, beeinflussen Eingabeinformationen das Ergebnis stark.
Glücklicherweise lassen sich die oben genannten Probleme mit verschiedenen Taktiken wirksam abschwächen oder verhindern

Zentrale Taktiken für das Kontextmanagement

RAG (Retrieval-Augmented Generation)

RAG ist ein Ansatz, bei dem nur die benötigten Informationen ausgewählt und dem LLM bereitgestellt werden, um die Antwortqualität zu erhöhen
Mit den größer werdenden Kontextfenstern von LLMs gibt es viele Versuche nach dem Motto „Wir packen einfach alle Informationen hinein“, aber unnötige Informationen verschlechtern das Ergebnis eher
RAG wird auch heute noch als sehr wichtige Technik eingesetzt

Tool Loadout (Auswahl der Tool-Zusammenstellung)

Eine Methode, bei der nur die benötigten Tools selektiv in den Kontext eingefügt werden
Tool-Beschreibungen werden in einer Vektor-DB verwaltet, und pro Prompt werden mit RAG die optimalen Tools ausgewählt
Ab mehr als 30 Tools kommt es durch überlappende Beschreibungen zu Verwirrung, und bei mehr als 100 sinkt die Modellleistung stark ab
Im Paper „Less is More“ scheitert Llama 3.1 8b bei 46 bereitgestellten Tools, ist aber erfolgreich, wenn nur 19 bereitgestellt werden
Damit benötigte Tools dynamisch ausgewählt werden können, wurde ein LLM-basierter Recommender verwendet, was Leistung, Geschwindigkeit und Energieeffizienz verbesserte

Context Quarantine (Kontextisolierung)

Eine Methode, bei der Kontext in getrennten Threads jeweils separat verwaltet wird
Probleme wie Recherche oder Exploration werden in mehrere Teile aufgeteilt, sodass jeweils ein separater Agent dafür zuständig ist
Im Multi-Agent-System von Anthropic verwendet jeder Sub-Agent ein unabhängiges Kontextfenster, um Effizienz und Präzision zu erhöhen
Dieses Design zeigt seine Stärken besonders deutlich bei Aufgaben, die gleichzeitig in mehrere Richtungen erkundet werden müssen

Context Pruning (Kontext-Pruning)

Eine Methode, bei der unnötige oder veraltete Informationen fortlaufend herausgefiltert werden
Im NLP-Bereich werden schon seit Langem verschiedene Pruning-Verfahren eingesetzt
In jüngerer Zeit sind mit Provence leichte und schnelle Spezialmodelle zum „Aufräumen“ von Kontext erschienen (1,75 GB, 95 % Dokumentkompression möglich)
Wenn Kontext in strukturierter Form wie etwa Dictionaries verwaltet wird, werden Pruning und Zusammenfassung (Kompression) einfacher

Context Summarization (Kontext-Zusammenfassung)

Ein Ansatz, bei dem der gesamte Kontext komprimiert bzw. zusammengefasst wird, wenn er sehr lang wird
Er dient nicht nur dazu, unterhalb der Fenstergrenze zu bleiben, sondern hilft auch wirksam dabei, unnötige Wiederholungen oder Ablenkung zu verhindern
Wichtig ist, festzulegen, welche Informationen in der Komprimierungsphase erhalten bleiben sollen
Über einen separaten LLM-powered Zusammenfassungsschritt können Evaluationsdaten gesammelt und verbessert werden

Context Offloading (Kontext-Offloading)

Eine Strategie, bei der außerhalb des Kontexts ein Speicherbereich geschaffen wird, um Notizen festzuhalten
Ein Beispiel ist das „think“-Tool von Anthropic, das ein separates Scratchpad bereitstellt, damit das LLM bei Bedarf Zwischennotizen ablegen kann
Dies ist nützlich für Tool-Output-Analyse, Policy-Validierung, sequentielle Entscheidungsfindung und Ähnliches
Durch das separate Speichern von Zwischenergebnissen wird verhindert, dass der Kontext unnötig verschmutzt oder zu komplex wird
Verbesserungen bei Leistung und Genauigkeit wurden bestätigt, in manchen Fällen bis zu 54 %

Fazit und Hinweise für das Agent-Design

Kontextmanagement ist im Agent-Design der wohl schwierigste Teil
Beim Programmieren mit LLMs entscheidet die Frage über Erfolg oder Misserfolg, wie Informationen, Tools und Kontext kombiniert und verwaltet werden
So groß das Kontextfenster auch sein mag: Nicht jede Information ist hilfreich.
Es ist notwendig zu prüfen, ob die einzelnen Elemente tatsächlich Nutzen stiften, und den Kontext mit den oben vorgestellten 6 Methoden (RAG, Tool Loadout, Context Quarantine, Pruning, Summarization, Offloading) aktiv zu verwalten