9 Punkte von GN⁺ 2025-07-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Bei der Verwendung von langem Kontext treten typischerweise verschiedene Probleme der Informationsverwaltung auf, etwa Kontextverschmutzung, Verwirrung, Konflikte und Ablenkung
  • Informationsmanagement ist der Kernpunkt, und falsche Informationen wirken sich direkt negativ auf die Qualität der Ergebnisse aus
  • Wichtige Lösungsansätze sind Taktiken wie RAG, Tool Loadout, Context Quarantine, Pruning, Summarization, Offloading
  • Auch wenn das Kontextfenster moderner LLMs groß ist, sollte man beachten, dass der Missbrauch unnötiger Informationen in der Praxis weiterhin echte Probleme verursacht
  • Jede dieser Taktiken hilft Agent-Designern erheblich dabei, Kontext systematisch zu verwalten und Effizienz sowie Genauigkeit zu verbessern

Probleme bei langem Kontext und Zusammenfassung

Bei der Verwendung langen Kontexts können im System typischerweise folgende Fehlertypen auftreten

  • Kontextverschmutzung: Halluzinationen oder Fehler gelangen in den Kontext und werden wiederholt referenziert
  • Kontextablenkung: Der Kontext wird so lang, dass sich das Modell statt auf sein ursprünglich Gelerntes nur noch auf den Kontext konzentriert
  • Kontextverwirrung: Unnötige Informationen werden hinzugefügt und führen zu Antworten geringerer Qualität
  • Kontextkonflikt: Neu hinzugefügte Informationen oder Tools stehen im Widerspruch zu bereits vorhandenem Wissen

All diese Probleme gehen auf Informationsmanagement zurück; wie das Sprichwort „Garbage in, garbage out“ aus der Programmierung sagt, beeinflussen Eingabeinformationen das Ergebnis stark.
Glücklicherweise lassen sich die oben genannten Probleme mit verschiedenen Taktiken wirksam abschwächen oder verhindern

Zentrale Taktiken für das Kontextmanagement


RAG (Retrieval-Augmented Generation)

  • RAG ist ein Ansatz, bei dem nur die benötigten Informationen ausgewählt und dem LLM bereitgestellt werden, um die Antwortqualität zu erhöhen
  • Mit den größer werdenden Kontextfenstern von LLMs gibt es viele Versuche nach dem Motto „Wir packen einfach alle Informationen hinein“, aber unnötige Informationen verschlechtern das Ergebnis eher
  • RAG wird auch heute noch als sehr wichtige Technik eingesetzt

Tool Loadout (Auswahl der Tool-Zusammenstellung)

  • Eine Methode, bei der nur die benötigten Tools selektiv in den Kontext eingefügt werden
  • Tool-Beschreibungen werden in einer Vektor-DB verwaltet, und pro Prompt werden mit RAG die optimalen Tools ausgewählt
  • Ab mehr als 30 Tools kommt es durch überlappende Beschreibungen zu Verwirrung, und bei mehr als 100 sinkt die Modellleistung stark ab
  • Im Paper „Less is More“ scheitert Llama 3.1 8b bei 46 bereitgestellten Tools, ist aber erfolgreich, wenn nur 19 bereitgestellt werden
  • Damit benötigte Tools dynamisch ausgewählt werden können, wurde ein LLM-basierter Recommender verwendet, was Leistung, Geschwindigkeit und Energieeffizienz verbesserte

Context Quarantine (Kontextisolierung)

  • Eine Methode, bei der Kontext in getrennten Threads jeweils separat verwaltet wird
  • Probleme wie Recherche oder Exploration werden in mehrere Teile aufgeteilt, sodass jeweils ein separater Agent dafür zuständig ist
  • Im Multi-Agent-System von Anthropic verwendet jeder Sub-Agent ein unabhängiges Kontextfenster, um Effizienz und Präzision zu erhöhen
  • Dieses Design zeigt seine Stärken besonders deutlich bei Aufgaben, die gleichzeitig in mehrere Richtungen erkundet werden müssen

Context Pruning (Kontext-Pruning)

  • Eine Methode, bei der unnötige oder veraltete Informationen fortlaufend herausgefiltert werden
  • Im NLP-Bereich werden schon seit Langem verschiedene Pruning-Verfahren eingesetzt
  • In jüngerer Zeit sind mit Provence leichte und schnelle Spezialmodelle zum „Aufräumen“ von Kontext erschienen (1,75 GB, 95 % Dokumentkompression möglich)
  • Wenn Kontext in strukturierter Form wie etwa Dictionaries verwaltet wird, werden Pruning und Zusammenfassung (Kompression) einfacher

Context Summarization (Kontext-Zusammenfassung)

  • Ein Ansatz, bei dem der gesamte Kontext komprimiert bzw. zusammengefasst wird, wenn er sehr lang wird
  • Er dient nicht nur dazu, unterhalb der Fenstergrenze zu bleiben, sondern hilft auch wirksam dabei, unnötige Wiederholungen oder Ablenkung zu verhindern
  • Wichtig ist, festzulegen, welche Informationen in der Komprimierungsphase erhalten bleiben sollen
  • Über einen separaten LLM-powered Zusammenfassungsschritt können Evaluationsdaten gesammelt und verbessert werden

Context Offloading (Kontext-Offloading)

  • Eine Strategie, bei der außerhalb des Kontexts ein Speicherbereich geschaffen wird, um Notizen festzuhalten
  • Ein Beispiel ist das „think“-Tool von Anthropic, das ein separates Scratchpad bereitstellt, damit das LLM bei Bedarf Zwischennotizen ablegen kann
  • Dies ist nützlich für Tool-Output-Analyse, Policy-Validierung, sequentielle Entscheidungsfindung und Ähnliches
  • Durch das separate Speichern von Zwischenergebnissen wird verhindert, dass der Kontext unnötig verschmutzt oder zu komplex wird
  • Verbesserungen bei Leistung und Genauigkeit wurden bestätigt, in manchen Fällen bis zu 54 %

Fazit und Hinweise für das Agent-Design

  • Kontextmanagement ist im Agent-Design der wohl schwierigste Teil
  • Beim Programmieren mit LLMs entscheidet die Frage über Erfolg oder Misserfolg, wie Informationen, Tools und Kontext kombiniert und verwaltet werden
  • So groß das Kontextfenster auch sein mag: Nicht jede Information ist hilfreich.
  • Es ist notwendig zu prüfen, ob die einzelnen Elemente tatsächlich Nutzen stiften, und den Kontext mit den oben vorgestellten 6 Methoden (RAG, Tool Loadout, Context Quarantine, Pruning, Summarization, Offloading) aktiv zu verwalten

Noch keine Kommentare.

Noch keine Kommentare.