7 Punkte von GN⁺ 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Als zwei zentrale Techniken, um das Mythos-class-Modell Claude Fable 5, das die interne Arbeitsweise bei Anthropic verändert hat, gut zu nutzen, werden Self-Correction-Loop und Memory vorgestellt
  • Gut entworfene Goals und Rubrics speisen Feedback in die Umgebung ein, sodass Claude die Struktur Ausführen → Feedback sammeln → selbst korrigieren bis zur Zielerreichung wiederholen durchläuft
  • In der ML-Engineering-Aufgabe Parameter Golf verbesserte Fable 5 die Trainingspipeline im Vergleich zu Opus 4.7 um etwa das Sechsfache
  • Über Memory als Outer Loop über mehrere Sessions hinweg kann Claude in einer Session aufgezeichnete Inhalte in späteren Sessions wiederverwenden
  • Der Kernpunkt ist, dass statt direktem Prompting und Steuern das Entwerfen von Loops, in denen das Modell sich selbst korrigiert und Kontext verwaltet, wirksamer ist

Self-correction loop (Selbstkorrektur-Loop)

  • Ein allgemeines Rezept zur Verbesserung der Aufgabenleistung ist es, das Modell anhand von Bewertungskriterien hillclimben zu lassen
    • bcherny erwähnte: Seine Aufgabe sei es, Loops zu schreiben
    • /goal in Claude Code und Outcomes in Claude Managed Agent sind die Primitives, die dieses Rezept auf bestimmte Aufgaben anwenden
  • Ein gut entworfenes Goal oder eine Rubric fügt der Umgebung, in der Claude ausgeführt wird, Feedback hinzu; nach Ausführung, Feedback-Sammlung und Selbstkorrektur geht es weiter, bis Goal oder Rubric erfüllt sind

Parameter-Golf-Test

  • Parameter Golf ist eine Open-Source-ML-Engineering-Challenge, bei der das leistungsstärkste Modell, das in ein 16MB-Artefakt passt, auf 8xH100 in weniger als 10 Minuten trainiert werden soll
    • Getestet werden das Bearbeiten einer einzelnen Datei train_gpt.py, das Starten des Trainings, das Polling von Logs, das Prüfen von Scores und die Entscheidung über das nächste Experiment
    • Ähnlich zu karpathys Projekt autoresearch
  • Vergleich von Fable 5 und Opus 4.7 mit Claude Managed Agents (CMA)
    • CMA stellt ein Agent-Harness und eine gehostete Sandbox bereit und eignet sich für lang laufende Aufgaben von Fable 5
    • Für Parameter Golf wurde eine self-hosted Sandbox mit 8xH100-GPUs bereitgestellt

Die Bedeutung der bewertenden Instanz

  • Es wurde bestätigt, dass Modelle Probleme bei der Self-Critique ihrer eigenen Ausgaben zeigen (von Prithvi Rajasekaran im Engineering-Blog beschrieben)
  • Ein Verifier-Sub-Agent ist der Self-Critique überlegen, weil die Bewertung in einem unabhängigen Context Window erfolgt
    • Outcomes von CMA erstellt dafür automatisch einen Grader-Sub-Agent
  • Es wurde eine Rubric mit 9 überprüfbaren Kriterien bereitgestellt (Baseline ausführen, 20 Experimente durchführen usw.), bei einer maximalen Laufzeit von 8 Stunden
    • Der Outcomes-Grader erlaubt das Beenden von Claudes Arbeit erst, wenn bestätigt ist, dass alle Experimentkriterien erfüllt sind

Ergebnisvergleich

  • Fable 5 verbesserte die Trainingspipeline im Vergleich zu Opus 4.7 um etwa das Sechsfache
    • Werden Experimente in strukturelle Änderungen (Architekturänderungen) und skalare Änderungen (Anpassen von Konstanten) unterteilt, setzt Fable 5 stärker auf größere strukturelle Änderungen und zeigt Resilienz (überwand eine Quantisierungs-Regression und erreichte die beste Leistung)
  • Opus 4.7 wiederholte nach kleinen Erfolgen im ersten Experiment meist dieselbe Vorlage: Skalare Anpassung · messen · bei positivem Ergebnis beibehalten

Memory

  • Als Outer Loop über Sessions hinweg kann während einer Session geschriebenes Memory in späteren Sessions gesucht und wiederverwendet werden
  • Das Team von pgasawa veröffentlichte Continual Learning Bench 1.0
    • Der erste realistische Benchmark, der misst, in welchem Maß sich ein KI-System in einer Online-Umgebung verbessert
    • Frühere Benchmarks gingen von statelessen Modellen aus und behandelten jedes Beispiel unabhängig

Testaufbau

  • In einer der Benchmark-Aufgaben wurden Fable 5, Opus 4.7 und Sonnet 4.6 verglichen
    • Eine Aufgabe, bei der mit Zugriff auf eine SQL-Datenbank sequenzielle Fragen beantwortet werden; jede Frage ist eine separate Agent-Session, wobei Memory bereitgestellt wird
  • Verwendet wurde Memory von CMA, das jedem Agenten ein zwischen Sessions gemeinsam nutzbares gemountetes Dateisystem bereitstellt

Phasen effektiver Memory-Nutzung

  • Die effektive Nutzung von Memory wird durch den Ablauf fail (Fehler notieren) · investigate (Ursache untersuchen) · verify (als überprüfte Tatsache festhalten) · distill (zu allgemeinen Regeln verdichten) · consult (Regeln nachschlagen) verstärkt
  • Sonnet 4.6 bleibt in der Nähe von Phase 1 stehen
    • Das Repository ist eine Liste aus Fehlnotizen und ungelösten Vermutungen ("maybe prc instead of prc_usd?"), frühere Notizen werden kaum referenziert
    • Für Leistungsverbesserungen sind aufgabenspezifische Memory-Anweisungen nötig
  • Opus 4.7 bleibt in der Nähe von Phase 3 stehen
    • Es erstellt Schema-Referenzen mit gekennzeichneter Unsicherheit ("possibly prc in cents? Verify."), die Verifizierungsabdeckung ist jedoch mit 7–33 % niedrig (Median etwa 17 %)
  • Fable 5 neigt dazu, den Ablauf zu Ende zu führen
    • Im stärksten Durchlauf erreichte die Verifizierungsabdeckung bis zu 73 % (22 von 30) und das Gelernte wurde zu allgemeinen Regeln verdichtet, die bei künftigen Aufgaben helfen

Fazit

  • Statt Fable 5 direkt zu prompten oder zu steuern, ist es wirksamer, Loops zu entwerfen, in denen es auf Umweltfeedback (/goal, Outcomes) reagiert, sich selbst korrigiert und mit Memory seinen Kontext selbst verwaltet
  • Es wird empfohlen, Fable 5 bei anspruchsvollen Aufgaben mithilfe von Selbstkorrektur- und Memory-Loops direkt zu testen

Noch keine Kommentare.

Noch keine Kommentare.