- Wer diese Aufgabe löst und die Bestleistung von Claude Opus 4.5 (1487 Zyklen) übertrifft, kann Code und Lebenslauf bei Anthropic einreichen
- Die erste Version hatte ein Zeitlimit von 4 Stunden, wurde aber später auf eine Version mit 2 Stunden Zeitlimit umgestellt, nachdem Opus 4 die meisten Menschen geschlagen hatte
Anthropics ursprüngliche Take-Home-Aufgabe zur Performance
- Das Repository enthält die Version der Aufgabe, die für Anthropics frühe Leistungsbewertung verwendet wurde
- Es handelt sich um die Version aus der Zeit, bevor Claude Opus 4.5 Menschen bei der Leistung innerhalb von 2 Stunden übertroffen hat
- Ursprünglich war es eine Aufgabe mit 4 Stunden Zeitlimit, die später auf die 2-Stunden-Version verkürzt wurde
- Die 2-Stunden-Version basiert auf Startcode mit 18532 Zyklen (7,97-mal schnellere Leistung)
- Die aktuell veröffentlichte Version behält die neueste Struktur bei, wird aber wieder mit dem langsamsten Baseline-Code bereitgestellt
- Nach Claude Opus 4.5 wurde neuer Referenzcode verwendet
Performance-Benchmark
- Alle Werte werden in Taktzyklen einer simulierten Maschine gemessen
- Ergebnisse, gemessen auf Basis der 2-Stunden-Version (Startcode mit 18532 Zyklen)
- Wichtige Ergebnisse:
- 2164 Zyklen: Claude Opus 4 (langfristige Ausführung im Test-Harness)
- 1790 Zyklen: Claude Opus 4.5 (normale Code-Session, vergleichbar mit menschlicher Spitzenleistung)
- 1579 Zyklen: Claude Opus 4.5 (Ausführung im 2-Stunden-Test-Harness)
- 1548 Zyklen: Claude Sonnet 4.5 (langfristige Ausführung im Test-Harness)
- 1487 Zyklen: Claude Opus 4.5 (11,5 Stunden Harness-Ausführung)
- 1363 Zyklen: Claude Opus 4.5 (verbesserte Harness-Umgebung)
- Die beste menschliche Leistung ist besser als die obigen Werte, wird aber nicht veröffentlicht
Teilnahme und Einreichung
- Derzeit kann jede Person diese Aufgabe ohne Zeitlimit ausprobieren
- Wenn Teilnehmende die Bestleistung von Claude Opus 4.5 schlagen und auf 1487 Zyklen oder weniger optimieren, können sie Code und Lebenslauf per E-Mail an Anthropic senden
- E-Mail-Adresse: performance-recruiting@anthropic.com
- Mit der Veröffentlichung neuer Modelle kann sich der Leistungsmaßstab ändern
- Der Test kann mit dem Befehl
python tests/submission_tests.py ausgeführt werden
Noch keine Kommentare.