Die Ästhetik des Loop Engineering (The Art of Loop Engineering)

(langchain.com)

5 Punkte von GN⁺ 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Um Agenten zuverlässig für nützliche Aufgaben einzusetzen, reicht ein gutes Modell allein nicht aus; es braucht einen Harness, der auf die jeweilige Aufgabenmenge zugeschnitten ist
Der grundlegendste Agent Loop besteht darin, einem LLM Kontext zu geben und Tools wiederholt aufzurufen, bis die Aufgabe erledigt ist
Darauf aufbauend lassen sich effektivere Agenten konstruieren, indem man Validierungs-Loops, ereignisbasierte Loops und Hill-Climbing-Loops stapelt (stacking)
Jede Loop-Ebene kann mit LangChain-Primitiven instrumentiert werden; als Beispiel dient ein Agent für interne Dokumentation
Das eigentliche Potenzial liegt nicht im Modell selbst, sondern in den Loops, die um den Agenten herum aufgebaut werden

Loop 1: Agent Loop

Ein Agent ist im Kern ein Modell, das wiederholt Tools aufruft, bis eine Aufgabe abgeschlossen ist
LangChains create_agent stellt diesen Loop bereit: Wählt man ein Modell und verbindet Tools, erhält man einen funktionierenden Agent Loop
- Tools ermöglichen es dem Agenten, in der realen Welt Handlungen auszuführen
Im Beispiel des internen Dokumentations-Agenten besteht die erste Loop-Phase darin, eine Anfrage zur Verbesserung der Dokumentation entgegenzunehmen; das Modell plant und entwirft die Änderungen und nutzt Tools zum Klonen des Repos, Lesen von Dateien, Schreiben von Dokumentation und Öffnen eines Pull Requests

Level 2: Validierungs-Loop

Der Agent Loop erledigt Aufgaben, liefert beim ersten Versuch aber nicht immer korrekte oder konsistente Ergebnisse; wenn Konsistenz wichtig ist, wird er von einem Validierungs-Loop umschlossen, der die Ausgabe prüft und bei Mängeln Feedback an das Modell zurückspielt
Der Validierungs-Loop fügt einen Grader hinzu, der die Agenten-Ausgabe anhand einer Rubric bewertet und das Ergebnis bei einem Fehlschlag zusammen mit Feedback zurückgibt
- Der Grader kann deterministisch oder agentenbasiert sein; LLM as a judge ist ein typisches Beispiel
- RubricMiddleware handhabt dieses Muster, alternativ lässt es sich über den after_agent-Hook von create_agent anbinden
Im Dokumentationsbeispiel führt der Grader nach jedem Versuch Tests aus und prüft, ob alle Links funktionieren, alle CI-Checks bestehen und das Diff auf den angefragten Umfang beschränkt ist; so werden Fehlertypen ohne manuelles Review erkannt
Validierung erhöht Latenz und Kosten pro Ausführung, ist aber in den meisten Produktionsanwendungen, in denen Qualität wichtiger ist als Geschwindigkeit, wertvoll

Level 3: Ereignisbasierter Loop

Einer der wichtigsten Teile der Agentenentwicklung ist die Integrationsschicht (integrations layer), die Agenten mit dem Ökosystem verbindet und sie im Hintergrund ausführen lässt
Ein ereignisbasierter Loop führt den Agenten aus, wenn Ereignisse eintreten, etwa das Eintreffen eines neuen Dokuments, das Auslösen eines Zeitplans oder der Eingang eines Webhooks
- Der Agent ist kein Ziel, das man manuell aufruft, sondern eine Komponente, die kontinuierlich in einem größeren System arbeitet
LangSmith Deployment unterstützt die Trigger-Infrastruktur und bietet cron-Zeitpläne sowie Webhooks
- Ein beliebtes Beispiel für die Nutzung von cron sind die heartbeats von openclaw, die den Agenten in einen stets eingeschalteten, proaktiven Assistenten verwandeln
Der Dokumentations-Agent wird vom No-Code-Agent-Builder Fleet betrieben; Fleets channels und schedules verarbeiten ereignisbasierte und cron-basierte Trigger
- Wenn im Slack-Channel #docs-plz eine Nachricht eingeht, wird der Dokumentations-Agent über den Channel ausgeführt

Level 4: Hill-Climbing-Loop

Während die ersten drei Loops Aufgaben automatisieren, automatisiert der vierte Loop die Verbesserung (improvement) selbst
Jede Agentenausführung erzeugt einen Trace, der das Verhalten des Modells, aufgerufene Tools, Grader-Feedback und mehr aufzeichnet; diese Traces enthalten hochwertige Signale darüber, was funktioniert und was nicht
Der Hill-Climbing-Loop führt einen Analyse-Agenten über die Traces aus und schreibt auf Basis der Ergebnisse die Harness-Konfiguration in eine verbesserte Einstellung um
- Dazu gehören Anpassungen an Prompts/Tools oder am Grader
- In LangSmith wird dieser vierte Loop über den Trace-Analyse-Agenten Engine instrumentiert
Im Beispiel des Dokumentations-Agenten wird engine auf Traces ausgeführt, um Probleme zu erkennen; wenn mehrere Traces auf ein potenzielles Problem hinweisen, wird ein Issue erstellt, der Änderungen am problematischen Prompt oder Tool anfordert
Entscheidend ist, dass der Rückpfeil nicht einfach nur nach ganz oben zurückführt, sondern nach innen geht und den Agent Loop direkt aktualisiert; jeder Zyklus des äußeren Loops macht den inneren Loop effektiver
Ausblick
- Prompts und Tool-Konfigurationen sind am leichtesten zu verbessern, aber nicht die einzige Option; Teams, die Open-Weight-Modelle betreiben, können den Hill-Climbing-Loop mit RL-Finetuning verbinden und Traces oder Bewertungsergebnisse als Trainingssignal nutzen, um das Modell selbst zu verbessern
- Auch ergänzender Kontext wie Memory oder abgerufene Skills lässt sich auf dieselbe Weise verbessern; der Loop ist ein Muster, und was optimiert wird, liegt beim Nutzer

Menschliche Aufsicht und Fachkompetenz

Automatisierung bedeutet nicht, Menschen aus dem Loop zu entfernen; auf jeder Ebene gibt es Punkte, an denen menschliche Aufsicht Wert schafft
- Ein automatischer Grader kann prüfen, ob Links funktionieren, doch zu erkennen, dass das Framing für die Zielgruppe falsch ist, bleibt Aufgabe des Menschen; Urteilskraft aus Kontext, Erfahrung und Gespür ist der Punkt, an dem menschliches Review nötig ist
Ein Teil der Fachkompetenz sollte in Prompts/Tools selbst kodifiziert werden, doch bei sensiblen Aktionen wie Finanztransaktionen oder DB-Operationen ist menschliches Review in Echtzeit unerlässlich
LangChain macht es leicht, diese Kontaktpunkte in allen Loops zu instrumentieren
- Agent Loop: menschliche Eingabe vor sensiblen Aktionen/Tool-Aufrufen verlangen
- Validierungs-Loop: In sensiblen Workflows übernimmt ein Mensch die Rolle des Graders
- Applikations-Loop: Ein Mensch genehmigt die Ausgabe, bevor sie an den Endnutzer zurückgegeben wird
- Hill-Climbing-Loop: Harness-Verbesserungen durchlaufen vor dem Deployment ein menschliches Review
Alle Open-Source-Frameworks von LangChain bieten human in the loop als First-Class-Primitive

Zusammenfassung

Zusammenfassung, wie die vier Loops gestapelt werden
- Agent Loop: Das Modell ruft bis zum Abschluss der Aufgabe wiederholt Tools auf → Automatisierung von Aufgaben; Primitive sind create_agent und von LangChain unterstützte Modelle
- Validierungs-Loop: Die Ausgabe wird anhand einer Rubric bewertet und bei Fehlschlag mit Feedback erneut versucht → Sicherung von Aufgabenqualität und Genauigkeit; Primitive ist RubricMiddleware
- Ereignisbasierter Loop: Ereignisse triggern Agentenausführungen, die reale Systeme aktualisieren → Automatisierung von Aufgaben in großem Maßstab; Primitive sind cron-Trigger/Webhook-basierte LangSmith Deployment oder Fleet channels
- Hill-Climbing-Loop: Traces aus Produktionsausführungen verbessern über einen Analyse-Agenten die Harness-Konfiguration → Verbesserung des Harness; Primitive ist LangSmith Engine
Das ist das, was swyx loopcraft nennt, also die tatsächliche Praxis des Loop Engineering; auch führende Köpfe wie Steipete, Boris und Andrej sind zu demselben Schluss gekommen: Das Potenzial von Agenten liegt in den Loops, die um sie herum aufgebaut werden
Loops 1 und 2 wurden lange behandelt; nun sollte sich der Fokus auf Loops 3 und 4 verlagern: Agenten in Ökosysteme einbetten, sie anhand von Kriterien kontinuierlich verbessern lassen und Wert im Zinseszinseffekt aufbauen
Satya verweist auf die organisationsweite Interessenlage und merkt an, dass Unternehmen, die früh Lern-Loops aufbauen, in denen menschliches Urteilsvermögen und Token-Kapital gemeinsam kumulieren, einen schwer kopierbaren Vorteil erlangen

Die Ästhetik des Loop Engineering (The Art of Loop Engineering)

Loop 1: Agent Loop

Level 2: Validierungs-Loop

Level 3: Ereignisbasierter Loop

Level 4: Hill-Climbing-Loop

Ausblick

Menschliche Aufsicht und Fachkompetenz

Zusammenfassung

Verwandte Beiträge

Noch keine Kommentare.