Die Ästhetik des Loop Engineering (The Art of Loop Engineering)
(langchain.com)- Um Agenten zuverlässig für nützliche Aufgaben einzusetzen, reicht ein gutes Modell allein nicht aus; es braucht einen Harness, der auf die jeweilige Aufgabenmenge zugeschnitten ist
- Der grundlegendste Agent Loop besteht darin, einem LLM Kontext zu geben und Tools wiederholt aufzurufen, bis die Aufgabe erledigt ist
- Darauf aufbauend lassen sich effektivere Agenten konstruieren, indem man Validierungs-Loops, ereignisbasierte Loops und Hill-Climbing-Loops stapelt (stacking)
- Jede Loop-Ebene kann mit LangChain-Primitiven instrumentiert werden; als Beispiel dient ein Agent für interne Dokumentation
- Das eigentliche Potenzial liegt nicht im Modell selbst, sondern in den Loops, die um den Agenten herum aufgebaut werden
Loop 1: Agent Loop
- Ein Agent ist im Kern ein Modell, das wiederholt Tools aufruft, bis eine Aufgabe abgeschlossen ist
- LangChains
create_agentstellt diesen Loop bereit: Wählt man ein Modell und verbindet Tools, erhält man einen funktionierenden Agent Loop- Tools ermöglichen es dem Agenten, in der realen Welt Handlungen auszuführen
- Im Beispiel des internen Dokumentations-Agenten besteht die erste Loop-Phase darin, eine Anfrage zur Verbesserung der Dokumentation entgegenzunehmen; das Modell plant und entwirft die Änderungen und nutzt Tools zum Klonen des Repos, Lesen von Dateien, Schreiben von Dokumentation und Öffnen eines Pull Requests
Level 2: Validierungs-Loop
- Der Agent Loop erledigt Aufgaben, liefert beim ersten Versuch aber nicht immer korrekte oder konsistente Ergebnisse; wenn Konsistenz wichtig ist, wird er von einem Validierungs-Loop umschlossen, der die Ausgabe prüft und bei Mängeln Feedback an das Modell zurückspielt
- Der Validierungs-Loop fügt einen Grader hinzu, der die Agenten-Ausgabe anhand einer Rubric bewertet und das Ergebnis bei einem Fehlschlag zusammen mit Feedback zurückgibt
- Der Grader kann deterministisch oder agentenbasiert sein; LLM as a judge ist ein typisches Beispiel
RubricMiddlewarehandhabt dieses Muster, alternativ lässt es sich über denafter_agent-Hook voncreate_agentanbinden
- Im Dokumentationsbeispiel führt der Grader nach jedem Versuch Tests aus und prüft, ob alle Links funktionieren, alle CI-Checks bestehen und das Diff auf den angefragten Umfang beschränkt ist; so werden Fehlertypen ohne manuelles Review erkannt
- Validierung erhöht Latenz und Kosten pro Ausführung, ist aber in den meisten Produktionsanwendungen, in denen Qualität wichtiger ist als Geschwindigkeit, wertvoll
Level 3: Ereignisbasierter Loop
- Einer der wichtigsten Teile der Agentenentwicklung ist die Integrationsschicht (integrations layer), die Agenten mit dem Ökosystem verbindet und sie im Hintergrund ausführen lässt
- Ein ereignisbasierter Loop führt den Agenten aus, wenn Ereignisse eintreten, etwa das Eintreffen eines neuen Dokuments, das Auslösen eines Zeitplans oder der Eingang eines Webhooks
- Der Agent ist kein Ziel, das man manuell aufruft, sondern eine Komponente, die kontinuierlich in einem größeren System arbeitet
- LangSmith Deployment unterstützt die Trigger-Infrastruktur und bietet cron-Zeitpläne sowie Webhooks
- Ein beliebtes Beispiel für die Nutzung von cron sind die heartbeats von openclaw, die den Agenten in einen stets eingeschalteten, proaktiven Assistenten verwandeln
- Der Dokumentations-Agent wird vom No-Code-Agent-Builder Fleet betrieben; Fleets channels und schedules verarbeiten ereignisbasierte und cron-basierte Trigger
- Wenn im Slack-Channel
#docs-plzeine Nachricht eingeht, wird der Dokumentations-Agent über den Channel ausgeführt
- Wenn im Slack-Channel
Level 4: Hill-Climbing-Loop
- Während die ersten drei Loops Aufgaben automatisieren, automatisiert der vierte Loop die Verbesserung (improvement) selbst
- Jede Agentenausführung erzeugt einen Trace, der das Verhalten des Modells, aufgerufene Tools, Grader-Feedback und mehr aufzeichnet; diese Traces enthalten hochwertige Signale darüber, was funktioniert und was nicht
- Der Hill-Climbing-Loop führt einen Analyse-Agenten über die Traces aus und schreibt auf Basis der Ergebnisse die Harness-Konfiguration in eine verbesserte Einstellung um
- Dazu gehören Anpassungen an Prompts/Tools oder am Grader
- In LangSmith wird dieser vierte Loop über den Trace-Analyse-Agenten Engine instrumentiert
- Im Beispiel des Dokumentations-Agenten wird engine auf Traces ausgeführt, um Probleme zu erkennen; wenn mehrere Traces auf ein potenzielles Problem hinweisen, wird ein Issue erstellt, der Änderungen am problematischen Prompt oder Tool anfordert
- Entscheidend ist, dass der Rückpfeil nicht einfach nur nach ganz oben zurückführt, sondern nach innen geht und den Agent Loop direkt aktualisiert; jeder Zyklus des äußeren Loops macht den inneren Loop effektiver
-
Ausblick
- Prompts und Tool-Konfigurationen sind am leichtesten zu verbessern, aber nicht die einzige Option; Teams, die Open-Weight-Modelle betreiben, können den Hill-Climbing-Loop mit RL-Finetuning verbinden und Traces oder Bewertungsergebnisse als Trainingssignal nutzen, um das Modell selbst zu verbessern
- Auch ergänzender Kontext wie Memory oder abgerufene Skills lässt sich auf dieselbe Weise verbessern; der Loop ist ein Muster, und was optimiert wird, liegt beim Nutzer
Menschliche Aufsicht und Fachkompetenz
- Automatisierung bedeutet nicht, Menschen aus dem Loop zu entfernen; auf jeder Ebene gibt es Punkte, an denen menschliche Aufsicht Wert schafft
- Ein automatischer Grader kann prüfen, ob Links funktionieren, doch zu erkennen, dass das Framing für die Zielgruppe falsch ist, bleibt Aufgabe des Menschen; Urteilskraft aus Kontext, Erfahrung und Gespür ist der Punkt, an dem menschliches Review nötig ist
- Ein Teil der Fachkompetenz sollte in Prompts/Tools selbst kodifiziert werden, doch bei sensiblen Aktionen wie Finanztransaktionen oder DB-Operationen ist menschliches Review in Echtzeit unerlässlich
- LangChain macht es leicht, diese Kontaktpunkte in allen Loops zu instrumentieren
- Agent Loop: menschliche Eingabe vor sensiblen Aktionen/Tool-Aufrufen verlangen
- Validierungs-Loop: In sensiblen Workflows übernimmt ein Mensch die Rolle des Graders
- Applikations-Loop: Ein Mensch genehmigt die Ausgabe, bevor sie an den Endnutzer zurückgegeben wird
- Hill-Climbing-Loop: Harness-Verbesserungen durchlaufen vor dem Deployment ein menschliches Review
- Alle Open-Source-Frameworks von LangChain bieten human in the loop als First-Class-Primitive
Zusammenfassung
- Zusammenfassung, wie die vier Loops gestapelt werden
- Agent Loop: Das Modell ruft bis zum Abschluss der Aufgabe wiederholt Tools auf → Automatisierung von Aufgaben; Primitive sind create_agent und von LangChain unterstützte Modelle
- Validierungs-Loop: Die Ausgabe wird anhand einer Rubric bewertet und bei Fehlschlag mit Feedback erneut versucht → Sicherung von Aufgabenqualität und Genauigkeit; Primitive ist RubricMiddleware
- Ereignisbasierter Loop: Ereignisse triggern Agentenausführungen, die reale Systeme aktualisieren → Automatisierung von Aufgaben in großem Maßstab; Primitive sind cron-Trigger/Webhook-basierte LangSmith Deployment oder Fleet channels
- Hill-Climbing-Loop: Traces aus Produktionsausführungen verbessern über einen Analyse-Agenten die Harness-Konfiguration → Verbesserung des Harness; Primitive ist LangSmith Engine
- Das ist das, was swyx loopcraft nennt, also die tatsächliche Praxis des Loop Engineering; auch führende Köpfe wie Steipete, Boris und Andrej sind zu demselben Schluss gekommen: Das Potenzial von Agenten liegt in den Loops, die um sie herum aufgebaut werden
- Loops 1 und 2 wurden lange behandelt; nun sollte sich der Fokus auf Loops 3 und 4 verlagern: Agenten in Ökosysteme einbetten, sie anhand von Kriterien kontinuierlich verbessern lassen und Wert im Zinseszinseffekt aufbauen
- Satya verweist auf die organisationsweite Interessenlage und merkt an, dass Unternehmen, die früh Lern-Loops aufbauen, in denen menschliches Urteilsvermögen und Token-Kapital gemeinsam kumulieren, einen schwer kopierbaren Vorteil erlangen
Noch keine Kommentare.