11 Punkte von GN⁺ 2026-01-22 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Wer diese Aufgabe löst und die Bestleistung von Claude Opus 4.5 (1487 Zyklen) übertrifft, kann Code und Lebenslauf bei Anthropic einreichen
  • Die erste Version hatte ein Zeitlimit von 4 Stunden, wurde aber später auf eine Version mit 2 Stunden Zeitlimit umgestellt, nachdem Opus 4 die meisten Menschen geschlagen hatte

Anthropics ursprüngliche Take-Home-Aufgabe zur Performance

  • Das Repository enthält die Version der Aufgabe, die für Anthropics frühe Leistungsbewertung verwendet wurde
    • Es handelt sich um die Version aus der Zeit, bevor Claude Opus 4.5 Menschen bei der Leistung innerhalb von 2 Stunden übertroffen hat
    • Ursprünglich war es eine Aufgabe mit 4 Stunden Zeitlimit, die später auf die 2-Stunden-Version verkürzt wurde
  • Die 2-Stunden-Version basiert auf Startcode mit 18532 Zyklen (7,97-mal schnellere Leistung)
    • Die aktuell veröffentlichte Version behält die neueste Struktur bei, wird aber wieder mit dem langsamsten Baseline-Code bereitgestellt
  • Nach Claude Opus 4.5 wurde neuer Referenzcode verwendet

Performance-Benchmark

  • Alle Werte werden in Taktzyklen einer simulierten Maschine gemessen
    • Ergebnisse, gemessen auf Basis der 2-Stunden-Version (Startcode mit 18532 Zyklen)
  • Wichtige Ergebnisse:
    • 2164 Zyklen: Claude Opus 4 (langfristige Ausführung im Test-Harness)
    • 1790 Zyklen: Claude Opus 4.5 (normale Code-Session, vergleichbar mit menschlicher Spitzenleistung)
    • 1579 Zyklen: Claude Opus 4.5 (Ausführung im 2-Stunden-Test-Harness)
    • 1548 Zyklen: Claude Sonnet 4.5 (langfristige Ausführung im Test-Harness)
    • 1487 Zyklen: Claude Opus 4.5 (11,5 Stunden Harness-Ausführung)
    • 1363 Zyklen: Claude Opus 4.5 (verbesserte Harness-Umgebung)
    • Die beste menschliche Leistung ist besser als die obigen Werte, wird aber nicht veröffentlicht

Teilnahme und Einreichung

  • Derzeit kann jede Person diese Aufgabe ohne Zeitlimit ausprobieren
  • Wenn Teilnehmende die Bestleistung von Claude Opus 4.5 schlagen und auf 1487 Zyklen oder weniger optimieren, können sie Code und Lebenslauf per E-Mail an Anthropic senden
    • E-Mail-Adresse: performance-recruiting@anthropic.com
  • Mit der Veröffentlichung neuer Modelle kann sich der Leistungsmaßstab ändern
  • Der Test kann mit dem Befehl python tests/submission_tests.py ausgeführt werden

Noch keine Kommentare.

Noch keine Kommentare.