Metas HyperAgents — wenn Agenten ihr eigenes Harness selbst entwerfen

(cobusgreyling.medium.com)

45 Punkte von GN⁺ 18 일 전 | 3 Kommentare | Auf WhatsApp teilen

HyperAgents, gemeinsam von Meta und UBC vorgestellt, ist ein Framework für selbstreferenzielle KI-Agenten, das nicht nur den Code zur Aufgabenausführung, sondern auch den Verbesserungsmechanismus selbst eigenständig verändert
Durch wiederholte Selbstverbesserung in verschiedenen Domänen wie Coding, Paper-Review, Robotik und Mathematikbewertung erfanden die Agenten eigenständig persistenten Speicher, Performance-Tracking und mehrstufige Verifikations-Pipelines
Diese von den Agenten selbst aufgebauten Komponenten stimmen exakt mit den Kernelementen eines Production-Harnesses überein, den Entwickler bislang manuell erstellt haben
Das Harness ist nicht nur eine praktische Entwicklungshilfe, sondern die konvergente Architektur agentischer Systeme, während Agenten sich vom Konsumenten der Infrastruktur zum Produzenten entwickeln
Die Rolle der Entwickler verschiebt sich vom direkten Aufbau des Harnesses hin zum Entwurf von Anfangsbedingungen, unter denen Agenten ein wirksames Harness evolvieren können

Überblick über HyperAgents

HyperAgents, vorgestellt in einem neuen Paper von Meta und UBC, sind selbstreferenzielle Agenten, die nicht nur ihr Verhalten zur Aufgabenlösung, sondern auch den Mechanismus zur Erzeugung künftiger Verbesserungen verändern können
Bemerkenswert ist, wohin die Agenten konvergieren, wenn man sie der Selbstverbesserung überlässt: Sie erfinden dieselben Komponenten neu, die Entwickler heute manuell aufbauen
Der Hyperagent wird als Produzent von Infrastruktur definiert

HyperAgents vs. Universal Agents

Ein Universal Agent ist ein hochadaptiver Executor, der durch das Schreiben von Code nahezu jedes Problem improvisiert lösen kann, aber weiterhin innerhalb einer von Menschen entworfenen Infrastruktur, also eines Harnesses, arbeitet
Ein Hyperagent ist ein Produzent von Infrastruktur, der aus einem Minimalzustand startet und durch selbstreferenzielle Evolution eigenständig ein Production-Harness aufbaut

Definition des Harnesses und seine Kernkomponenten

Ein Harness ist ein Softwaresystem, das die Arbeitsweise eines KI-Agenten steuert, indem es Tools, Speicher, Retries, Context Engineering und Verifikation verwaltet, sodass sich das Modell auf das Reasoning konzentrieren kann
Sechs zentrale Komponenten eines Production-Harnesses:
- Tool Integration: Registrierung und Ausführung von Tools
- Memory & State: Persistenz von Ergebnissen zwischen Schritten
- Context Engineering: Dynamische Zusammenstellung von Prompts
- Planning: Zerlegung komplexer Aufgaben in Schritte
- Verification: Prüfung der Ausgaben gegen Regeln
- Modularity: Unabhängiges Umschalten einzelner Komponenten
Traditionell ist dies der Bereich des Human Engineering, in dem Entwickler Dinge wie eine ToolRegistry-Klasse, MemoryManager, Retry-Loops und Prompt-Assembling-Logik direkt schreiben
Die vom HyperAgents-Paper aufgeworfene Frage lautet: „Was passiert, wenn Agenten diese Komponenten selbst aufbauen?“

Wie HyperAgents funktionieren

Das im Paper vorgestellte Framework heißt DGM-Hyperagents (DGM-H), und die Kernidee ist einfach
Ein Hyperagent ist ein einzelnes editierbares Programm, das zwei Dinge enthält:
- einen Task Agent, der die gegebene Aufgabe löst
- einen Meta Agent, der den Task Agent und sich selbst verändert
Das Schlüsselwort ist „itself“: Der Meta Agent kann seinen eigenen Code umschreiben, und der Mechanismus, der Verbesserungen erzeugt, wird selbst zum Ziel der Verbesserung
Das Paper bezeichnet dies als metacognitive self-modification
Das System arbeitet über eine Evolutionsschleife:
- Start mit einem Basis-Agenten
- Der Meta Agent liest den Agentencode, analysiert frühere Performance und erzeugt eine veränderte Version
- Die veränderte Version wird evaluiert; ist die Performance besser, wird sie dem Archiv hinzugefügt
- Danach Auswahl aus dem Archiv und Wiederholung
Über Hunderte von Iterationen wird der Agent nicht nur besser in der Aufgabe, sondern verbessert auch seine Fähigkeit zur Verbesserung selbst

Komponenten, die durch Selbstverbesserung entstanden sind

Als Selbstverbesserung in verschiedenen Domänen wie Coding, Paper-Review, Robotik-Belohnungsdesign und Bewertung von Olympiade-Mathematik eingesetzt wurde, erfanden die Agenten eigenständig folgende Elemente:

Persistenter Speicher (Persistent Memory)

Ohne Anweisung von Entwicklern evolvierte der Agent selbstständig ein Speichersystem
Der Grund: Agenten, die vergangene Ergebnisse erinnern, Performance-Trends verfolgen und verdichtete Erkenntnisse speichern konnten, übertrafen Agenten ohne diese Fähigkeiten
Beispiele für Speichereinträge aus dem Paper: Speicherung kausaler Hypothesen, Identifikation der leistungsstärksten Generationen, Diagnose von Over-Modification und Vorschläge zur Kombination erfolgreicher Strategien

Performance-Tracking

Der Agent baute eigenständig Observability auf
Dazu gehören gleitende Durchschnitte über Verbesserungstrends, aggregierte Statistiken pro Generation und Score-Historien je Domäne
Das entspricht genau Funktionen wie Token-Tracking und Audit-Logging, die Entwickler manuell in ein Harness einbauen

Mehrstufige Evaluations-Pipelines (Multi-stage Evaluation Pipelines)

In der Domäne Paper-Review entwickelte sich der Agent von oberflächlichen Verhaltensanweisungen zu expliziten mehrstufigen Evaluations-Pipelines
Enthalten sind Checklisten, Entscheidungsregeln und klar definierte Kriterien
Das Ergebnis ist, dass der Agent eigenständig einen Verifier aufgebaut hat

Schwellenwertbasierte Entscheidungsprotokolle (Decision Protocols with Thresholds)

Der Agent entwickelte explizite Entscheidungsgrenzen: Accept/Reject-Verhältnisse, Score-Schwellenwerte, Confidence-Level usw.
Das ist dasselbe wie die regelbasierten Checks, die ein Harness-Verifier implementiert

Domänenwissensbasen (Domain Knowledge Bases)

Beim Robotik-Belohnungsdesign baute und verfeinerte der Agent schrittweise interne Wissensbasen zu Umgebungsrestriktionen, gültigen Zustandsvariablen und Reward-Scaling-Heuristiken
Das ist das Ergebnis von Context Engineering, bei dem der Agent lernt, den richtigen Kontext für sich selbst zusammenzustellen

Retries und Selbstkorrektur (Retry and Self-Correction)

Wenn eine Agentenmodifikation die Performance verschlechterte, diagnostizierten spätere Generationen die Regression und korrigierten sie
Das entspricht dem Muster von Harnessen mit Retry-Loops inklusive Feedback Injection

Das größere Bild — ein Trend, der zu einem Muster konvergiert

Das in mehreren Forschungsarbeiten verfolgte Muster verbindet sich zu einem größeren Trend:
- Harness Engineering: Definition der sechs Komponenten, die Entwickler um Agenten herum aufbauen
- From Copilot to Codex: der Wandel von menschlich geschriebenem Code zu von Agenten delegiertem Code
- Universal Agents: die These, dass Coding-Fähigkeit Agenten universell macht
- HyperAgents: Agenten bauen durch Selbstmodifikation ihr eigenes Harness auf
Agenten bewegen sich vom Konsumenten der Infrastruktur zum Produzenten, also vom Ausführen innerhalb eines Harnesses hin zum Engineering des Harnesses selbst
Die konkrete Demonstration im DGM-H-Paper: Start mit einem nackten Agenten, der nur einen einzelnen LLM-Call hat, und nach Hunderten von Selbstmodifikations-Iterationen Entwicklung zu einem System mit persistentem Speicher, Performance-Tracking, mehrstufigen Evaluations-Pipelines, Domänenwissensbasis und modularer Codestruktur
Die Rolle von Entwicklern verschwindet nicht, sondern wandelt sich, und das Paper betont, dass menschliche Aufsicht essenziell bleibt
Die Rolle verschiebt sich vom direkten Aufbau des Harnesses hin zum Design von Anfangsbedingungen, unter denen Agenten ein effektives Harness evolvieren können

3 Kommentare

geesecross 18 일 전

Ich denke, die Neuerfindung von Harness-Komponenten war weniger eine zwangsläufige Konvergenz, sondern eher das Ergebnis davon, dass sich durch Websuche und Ähnliches bereits genügend Vorbilder finden ließen, an denen man sich orientiert hat.

Erst wenn man sagen könnte, dass es gelungen ist, Komponenten für AI-Agenten allein auf Basis historischer Daten und mit ausschließlich darauf basierendem Zugriff neu zu erfinden, würde man das nicht eher als Architekturkonvergenz bezeichnen?

ng0301 17 일 전

Ist das der Anfang von Skynet? lol

ilfjh 17 일 전

Ist das wirklich plausibel??...