Loops mit Fable 5 entwerfen
(x.com/RLanceMartin)- Als zwei zentrale Techniken, um das Mythos-class-Modell Claude Fable 5, das die interne Arbeitsweise bei Anthropic verändert hat, gut zu nutzen, werden Self-Correction-Loop und Memory vorgestellt
- Gut entworfene Goals und Rubrics speisen Feedback in die Umgebung ein, sodass Claude die Struktur Ausführen → Feedback sammeln → selbst korrigieren bis zur Zielerreichung wiederholen durchläuft
- In der ML-Engineering-Aufgabe Parameter Golf verbesserte Fable 5 die Trainingspipeline im Vergleich zu Opus 4.7 um etwa das Sechsfache
- Über Memory als Outer Loop über mehrere Sessions hinweg kann Claude in einer Session aufgezeichnete Inhalte in späteren Sessions wiederverwenden
- Der Kernpunkt ist, dass statt direktem Prompting und Steuern das Entwerfen von Loops, in denen das Modell sich selbst korrigiert und Kontext verwaltet, wirksamer ist
Self-correction loop (Selbstkorrektur-Loop)
- Ein allgemeines Rezept zur Verbesserung der Aufgabenleistung ist es, das Modell anhand von Bewertungskriterien hillclimben zu lassen
- bcherny erwähnte: Seine Aufgabe sei es, Loops zu schreiben
- /goal in Claude Code und Outcomes in Claude Managed Agent sind die Primitives, die dieses Rezept auf bestimmte Aufgaben anwenden
- Ein gut entworfenes Goal oder eine Rubric fügt der Umgebung, in der Claude ausgeführt wird, Feedback hinzu; nach Ausführung, Feedback-Sammlung und Selbstkorrektur geht es weiter, bis Goal oder Rubric erfüllt sind
Parameter-Golf-Test
- Parameter Golf ist eine Open-Source-ML-Engineering-Challenge, bei der das leistungsstärkste Modell, das in ein 16MB-Artefakt passt, auf 8xH100 in weniger als 10 Minuten trainiert werden soll
- Getestet werden das Bearbeiten einer einzelnen Datei
train_gpt.py, das Starten des Trainings, das Polling von Logs, das Prüfen von Scores und die Entscheidung über das nächste Experiment - Ähnlich zu karpathys Projekt autoresearch
- Getestet werden das Bearbeiten einer einzelnen Datei
- Vergleich von Fable 5 und Opus 4.7 mit Claude Managed Agents (CMA)
- CMA stellt ein Agent-Harness und eine gehostete Sandbox bereit und eignet sich für lang laufende Aufgaben von Fable 5
- Für Parameter Golf wurde eine self-hosted Sandbox mit 8xH100-GPUs bereitgestellt
Die Bedeutung der bewertenden Instanz
- Es wurde bestätigt, dass Modelle Probleme bei der Self-Critique ihrer eigenen Ausgaben zeigen (von Prithvi Rajasekaran im Engineering-Blog beschrieben)
- Ein Verifier-Sub-Agent ist der Self-Critique überlegen, weil die Bewertung in einem unabhängigen Context Window erfolgt
- Outcomes von CMA erstellt dafür automatisch einen Grader-Sub-Agent
- Es wurde eine Rubric mit 9 überprüfbaren Kriterien bereitgestellt (Baseline ausführen, 20 Experimente durchführen usw.), bei einer maximalen Laufzeit von 8 Stunden
- Der Outcomes-Grader erlaubt das Beenden von Claudes Arbeit erst, wenn bestätigt ist, dass alle Experimentkriterien erfüllt sind
Ergebnisvergleich
- Fable 5 verbesserte die Trainingspipeline im Vergleich zu Opus 4.7 um etwa das Sechsfache
- Werden Experimente in strukturelle Änderungen (Architekturänderungen) und skalare Änderungen (Anpassen von Konstanten) unterteilt, setzt Fable 5 stärker auf größere strukturelle Änderungen und zeigt Resilienz (überwand eine Quantisierungs-Regression und erreichte die beste Leistung)
- Opus 4.7 wiederholte nach kleinen Erfolgen im ersten Experiment meist dieselbe Vorlage: Skalare Anpassung · messen · bei positivem Ergebnis beibehalten
Memory
- Als Outer Loop über Sessions hinweg kann während einer Session geschriebenes Memory in späteren Sessions gesucht und wiederverwendet werden
- Das Team von pgasawa veröffentlichte Continual Learning Bench 1.0
- Der erste realistische Benchmark, der misst, in welchem Maß sich ein KI-System in einer Online-Umgebung verbessert
- Frühere Benchmarks gingen von statelessen Modellen aus und behandelten jedes Beispiel unabhängig
Testaufbau
- In einer der Benchmark-Aufgaben wurden Fable 5, Opus 4.7 und Sonnet 4.6 verglichen
- Eine Aufgabe, bei der mit Zugriff auf eine SQL-Datenbank sequenzielle Fragen beantwortet werden; jede Frage ist eine separate Agent-Session, wobei Memory bereitgestellt wird
- Verwendet wurde Memory von CMA, das jedem Agenten ein zwischen Sessions gemeinsam nutzbares gemountetes Dateisystem bereitstellt
Phasen effektiver Memory-Nutzung
- Die effektive Nutzung von Memory wird durch den Ablauf fail (Fehler notieren) · investigate (Ursache untersuchen) · verify (als überprüfte Tatsache festhalten) · distill (zu allgemeinen Regeln verdichten) · consult (Regeln nachschlagen) verstärkt
- Sonnet 4.6 bleibt in der Nähe von Phase 1 stehen
- Das Repository ist eine Liste aus Fehlnotizen und ungelösten Vermutungen ("maybe prc instead of prc_usd?"), frühere Notizen werden kaum referenziert
- Für Leistungsverbesserungen sind aufgabenspezifische Memory-Anweisungen nötig
- Opus 4.7 bleibt in der Nähe von Phase 3 stehen
- Es erstellt Schema-Referenzen mit gekennzeichneter Unsicherheit ("possibly prc in cents? Verify."), die Verifizierungsabdeckung ist jedoch mit 7–33 % niedrig (Median etwa 17 %)
- Fable 5 neigt dazu, den Ablauf zu Ende zu führen
- Im stärksten Durchlauf erreichte die Verifizierungsabdeckung bis zu 73 % (22 von 30) und das Gelernte wurde zu allgemeinen Regeln verdichtet, die bei künftigen Aufgaben helfen
Fazit
- Statt Fable 5 direkt zu prompten oder zu steuern, ist es wirksamer, Loops zu entwerfen, in denen es auf Umweltfeedback (
/goal, Outcomes) reagiert, sich selbst korrigiert und mit Memory seinen Kontext selbst verwaltet - Es wird empfohlen, Fable 5 bei anspruchsvollen Aufgaben mithilfe von Selbstkorrektur- und Memory-Loops direkt zu testen
Noch keine Kommentare.