5 Punkte von GN⁺ 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Um Agenten zuverlässig für nützliche Aufgaben einzusetzen, reicht ein gutes Modell allein nicht aus; es braucht einen Harness, der auf die jeweilige Aufgabenmenge zugeschnitten ist
  • Der grundlegendste Agent Loop besteht darin, einem LLM Kontext zu geben und Tools wiederholt aufzurufen, bis die Aufgabe erledigt ist
  • Darauf aufbauend lassen sich effektivere Agenten konstruieren, indem man Validierungs-Loops, ereignisbasierte Loops und Hill-Climbing-Loops stapelt (stacking)
  • Jede Loop-Ebene kann mit LangChain-Primitiven instrumentiert werden; als Beispiel dient ein Agent für interne Dokumentation
  • Das eigentliche Potenzial liegt nicht im Modell selbst, sondern in den Loops, die um den Agenten herum aufgebaut werden

Loop 1: Agent Loop

  • Ein Agent ist im Kern ein Modell, das wiederholt Tools aufruft, bis eine Aufgabe abgeschlossen ist
  • LangChains create_agent stellt diesen Loop bereit: Wählt man ein Modell und verbindet Tools, erhält man einen funktionierenden Agent Loop
    • Tools ermöglichen es dem Agenten, in der realen Welt Handlungen auszuführen
  • Im Beispiel des internen Dokumentations-Agenten besteht die erste Loop-Phase darin, eine Anfrage zur Verbesserung der Dokumentation entgegenzunehmen; das Modell plant und entwirft die Änderungen und nutzt Tools zum Klonen des Repos, Lesen von Dateien, Schreiben von Dokumentation und Öffnen eines Pull Requests

Level 2: Validierungs-Loop

  • Der Agent Loop erledigt Aufgaben, liefert beim ersten Versuch aber nicht immer korrekte oder konsistente Ergebnisse; wenn Konsistenz wichtig ist, wird er von einem Validierungs-Loop umschlossen, der die Ausgabe prüft und bei Mängeln Feedback an das Modell zurückspielt
  • Der Validierungs-Loop fügt einen Grader hinzu, der die Agenten-Ausgabe anhand einer Rubric bewertet und das Ergebnis bei einem Fehlschlag zusammen mit Feedback zurückgibt
    • Der Grader kann deterministisch oder agentenbasiert sein; LLM as a judge ist ein typisches Beispiel
    • RubricMiddleware handhabt dieses Muster, alternativ lässt es sich über den after_agent-Hook von create_agent anbinden
  • Im Dokumentationsbeispiel führt der Grader nach jedem Versuch Tests aus und prüft, ob alle Links funktionieren, alle CI-Checks bestehen und das Diff auf den angefragten Umfang beschränkt ist; so werden Fehlertypen ohne manuelles Review erkannt
  • Validierung erhöht Latenz und Kosten pro Ausführung, ist aber in den meisten Produktionsanwendungen, in denen Qualität wichtiger ist als Geschwindigkeit, wertvoll

Level 3: Ereignisbasierter Loop

  • Einer der wichtigsten Teile der Agentenentwicklung ist die Integrationsschicht (integrations layer), die Agenten mit dem Ökosystem verbindet und sie im Hintergrund ausführen lässt
  • Ein ereignisbasierter Loop führt den Agenten aus, wenn Ereignisse eintreten, etwa das Eintreffen eines neuen Dokuments, das Auslösen eines Zeitplans oder der Eingang eines Webhooks
    • Der Agent ist kein Ziel, das man manuell aufruft, sondern eine Komponente, die kontinuierlich in einem größeren System arbeitet
  • LangSmith Deployment unterstützt die Trigger-Infrastruktur und bietet cron-Zeitpläne sowie Webhooks
    • Ein beliebtes Beispiel für die Nutzung von cron sind die heartbeats von openclaw, die den Agenten in einen stets eingeschalteten, proaktiven Assistenten verwandeln
  • Der Dokumentations-Agent wird vom No-Code-Agent-Builder Fleet betrieben; Fleets channels und schedules verarbeiten ereignisbasierte und cron-basierte Trigger
    • Wenn im Slack-Channel #docs-plz eine Nachricht eingeht, wird der Dokumentations-Agent über den Channel ausgeführt

Level 4: Hill-Climbing-Loop

  • Während die ersten drei Loops Aufgaben automatisieren, automatisiert der vierte Loop die Verbesserung (improvement) selbst
  • Jede Agentenausführung erzeugt einen Trace, der das Verhalten des Modells, aufgerufene Tools, Grader-Feedback und mehr aufzeichnet; diese Traces enthalten hochwertige Signale darüber, was funktioniert und was nicht
  • Der Hill-Climbing-Loop führt einen Analyse-Agenten über die Traces aus und schreibt auf Basis der Ergebnisse die Harness-Konfiguration in eine verbesserte Einstellung um
    • Dazu gehören Anpassungen an Prompts/Tools oder am Grader
    • In LangSmith wird dieser vierte Loop über den Trace-Analyse-Agenten Engine instrumentiert
  • Im Beispiel des Dokumentations-Agenten wird engine auf Traces ausgeführt, um Probleme zu erkennen; wenn mehrere Traces auf ein potenzielles Problem hinweisen, wird ein Issue erstellt, der Änderungen am problematischen Prompt oder Tool anfordert
  • Entscheidend ist, dass der Rückpfeil nicht einfach nur nach ganz oben zurückführt, sondern nach innen geht und den Agent Loop direkt aktualisiert; jeder Zyklus des äußeren Loops macht den inneren Loop effektiver
  • Ausblick

    • Prompts und Tool-Konfigurationen sind am leichtesten zu verbessern, aber nicht die einzige Option; Teams, die Open-Weight-Modelle betreiben, können den Hill-Climbing-Loop mit RL-Finetuning verbinden und Traces oder Bewertungsergebnisse als Trainingssignal nutzen, um das Modell selbst zu verbessern
    • Auch ergänzender Kontext wie Memory oder abgerufene Skills lässt sich auf dieselbe Weise verbessern; der Loop ist ein Muster, und was optimiert wird, liegt beim Nutzer

Menschliche Aufsicht und Fachkompetenz

  • Automatisierung bedeutet nicht, Menschen aus dem Loop zu entfernen; auf jeder Ebene gibt es Punkte, an denen menschliche Aufsicht Wert schafft
    • Ein automatischer Grader kann prüfen, ob Links funktionieren, doch zu erkennen, dass das Framing für die Zielgruppe falsch ist, bleibt Aufgabe des Menschen; Urteilskraft aus Kontext, Erfahrung und Gespür ist der Punkt, an dem menschliches Review nötig ist
  • Ein Teil der Fachkompetenz sollte in Prompts/Tools selbst kodifiziert werden, doch bei sensiblen Aktionen wie Finanztransaktionen oder DB-Operationen ist menschliches Review in Echtzeit unerlässlich
  • LangChain macht es leicht, diese Kontaktpunkte in allen Loops zu instrumentieren
    • Agent Loop: menschliche Eingabe vor sensiblen Aktionen/Tool-Aufrufen verlangen
    • Validierungs-Loop: In sensiblen Workflows übernimmt ein Mensch die Rolle des Graders
    • Applikations-Loop: Ein Mensch genehmigt die Ausgabe, bevor sie an den Endnutzer zurückgegeben wird
    • Hill-Climbing-Loop: Harness-Verbesserungen durchlaufen vor dem Deployment ein menschliches Review
  • Alle Open-Source-Frameworks von LangChain bieten human in the loop als First-Class-Primitive

Zusammenfassung

  • Zusammenfassung, wie die vier Loops gestapelt werden
    • Agent Loop: Das Modell ruft bis zum Abschluss der Aufgabe wiederholt Tools auf → Automatisierung von Aufgaben; Primitive sind create_agent und von LangChain unterstützte Modelle
    • Validierungs-Loop: Die Ausgabe wird anhand einer Rubric bewertet und bei Fehlschlag mit Feedback erneut versucht → Sicherung von Aufgabenqualität und Genauigkeit; Primitive ist RubricMiddleware
    • Ereignisbasierter Loop: Ereignisse triggern Agentenausführungen, die reale Systeme aktualisieren → Automatisierung von Aufgaben in großem Maßstab; Primitive sind cron-Trigger/Webhook-basierte LangSmith Deployment oder Fleet channels
    • Hill-Climbing-Loop: Traces aus Produktionsausführungen verbessern über einen Analyse-Agenten die Harness-Konfiguration → Verbesserung des Harness; Primitive ist LangSmith Engine
  • Das ist das, was swyx loopcraft nennt, also die tatsächliche Praxis des Loop Engineering; auch führende Köpfe wie Steipete, Boris und Andrej sind zu demselben Schluss gekommen: Das Potenzial von Agenten liegt in den Loops, die um sie herum aufgebaut werden
  • Loops 1 und 2 wurden lange behandelt; nun sollte sich der Fokus auf Loops 3 und 4 verlagern: Agenten in Ökosysteme einbetten, sie anhand von Kriterien kontinuierlich verbessern lassen und Wert im Zinseszinseffekt aufbauen
  • Satya verweist auf die organisationsweite Interessenlage und merkt an, dass Unternehmen, die früh Lern-Loops aufbauen, in denen menschliches Urteilsvermögen und Token-Kapital gemeinsam kumulieren, einen schwer kopierbaren Vorteil erlangen

Noch keine Kommentare.

Noch keine Kommentare.