Anthropic veröffentlicht Open-Source-Take-Home-Aufgabe zur Leistungsbewertung
(github.com/anthropics)- Wer diese Aufgabe löst und die Bestleistung von Claude Opus 4.5 (1487 Zyklen) übertrifft, kann Code und Lebenslauf bei Anthropic einreichen
- Die erste Version hatte ein Zeitlimit von 4 Stunden, wurde aber später auf eine Version mit 2 Stunden Zeitlimit umgestellt, nachdem Opus 4 die meisten Menschen geschlagen hatte
Anthropics ursprüngliche Take-Home-Aufgabe zur Performance
- Das Repository enthält die Version der Aufgabe, die für Anthropics frühe Leistungsbewertung verwendet wurde
- Es handelt sich um die Version aus der Zeit, bevor Claude Opus 4.5 Menschen bei der Leistung innerhalb von 2 Stunden übertroffen hat
- Ursprünglich war es eine Aufgabe mit 4 Stunden Zeitlimit, die später auf die 2-Stunden-Version verkürzt wurde
- Die 2-Stunden-Version basiert auf Startcode mit 18532 Zyklen (7,97-mal schnellere Leistung)
- Die aktuell veröffentlichte Version behält die neueste Struktur bei, wird aber wieder mit dem langsamsten Baseline-Code bereitgestellt
- Nach Claude Opus 4.5 wurde neuer Referenzcode verwendet
Performance-Benchmark
- Alle Werte werden in Taktzyklen einer simulierten Maschine gemessen
- Ergebnisse, gemessen auf Basis der 2-Stunden-Version (Startcode mit 18532 Zyklen)
- Wichtige Ergebnisse:
- 2164 Zyklen: Claude Opus 4 (langfristige Ausführung im Test-Harness)
- 1790 Zyklen: Claude Opus 4.5 (normale Code-Session, vergleichbar mit menschlicher Spitzenleistung)
- 1579 Zyklen: Claude Opus 4.5 (Ausführung im 2-Stunden-Test-Harness)
- 1548 Zyklen: Claude Sonnet 4.5 (langfristige Ausführung im Test-Harness)
- 1487 Zyklen: Claude Opus 4.5 (11,5 Stunden Harness-Ausführung)
- 1363 Zyklen: Claude Opus 4.5 (verbesserte Harness-Umgebung)
- Die beste menschliche Leistung ist besser als die obigen Werte, wird aber nicht veröffentlicht
Teilnahme und Einreichung
- Derzeit kann jede Person diese Aufgabe ohne Zeitlimit ausprobieren
- Wenn Teilnehmende die Bestleistung von Claude Opus 4.5 schlagen und auf 1487 Zyklen oder weniger optimieren, können sie Code und Lebenslauf per E-Mail an Anthropic senden
- E-Mail-Adresse: performance-recruiting@anthropic.com
- Mit der Veröffentlichung neuer Modelle kann sich der Leistungsmaßstab ändern
- Der Test kann mit dem Befehl
python tests/submission_tests.pyausgeführt werden
1 Kommentare
Hacker-News-Kommentare
Die Kernaufgabe, das Gleichgewicht zwischen ALU und VALU zu finden, fand ich interessant
Allerdings scheint das Load-Bandbreitenproblem ein Engpass sein zu können
Man muss offenbar annehmen, dass der Startindex immer 0 ist, um insgesamt höchstens 2096 Loads zu erreichen, und das ist nicht besonders spannend
Wenn es so etwas wie dynamic vector lane rotate gäbe, wäre es deutlich interessanter gewesen
Ich halte mich selbst für ziemlich klug, aber bei solchen Problemen merke ich, wie viel ich nicht weiß
Vielleicht liege ich etwas über dem Durchschnitt, aber hier spürt man die Lücke zu Top-Entwicklern
Wichtig ist die Fähigkeit, Unbekanntes anzutreffen und dazuzulernen
Ich bekam nach dem Studium in einem Bewerbungsgespräch bei einer Hardware-Firma auch einmal eine Aufgabe zur Low-Level-Code-Optimierung, und anfangs war mir das völlig fremd
Wenn man solche Konzepte lernt und sich mit solchen Problemen beschäftigt, kann das grundsätzlich jeder lösen
Man ist nicht unterdurchschnittlich, sondern hat einfach nur ein anderes Wissensset
Eigentlich ist das gar nicht so kompliziert
Man muss den Code nur gründlich lesen und die Struktur verstehen
Der eigentliche Unterschied im Können hängt daran, ob man sich das Gesamtmodell des Programms im Kopf vorstellen kann
Ich frage mich, ob Anthropic das nicht als DDoS-Angriff auf andere AI-Unternehmen veröffentlicht hat
Ich habe gemini CLI mit dem Prompt „Wie löse ich dieses Problem?“ gefüttert, und es läuft seit 20 Minuten ohne aufzuhören
Sie geraten oft in Schleifen wie „Ich bereite eine Antwort vor. Fertig. Ich werde sie jetzt ausgeben.“
Manchmal wird nach Schleifenerkennung abgebrochen, aber wenn selbst triviale Aufgaben über 15 Minuten dauern, wirkt das wie ein strukturelles Problem
Ich habe es seit dem Release von G3Pro genutzt, und die Leistung war miserabel
Ich habe mehrere AI-Agenten unter denselben Bedingungen getestet
Am Ende kam kein Modell über das Ziel von Anthropic hinaus, aber gpt-5-2 war am schnellsten und effizientesten
Wenn es schon so schnell ist, hat es vielleicht noch mehr Potenzial
Könntest du vielleicht den agent-comparison harness code teilen?
Es gab die Formulierung: „Wenn du auf unter 1487 Zyklen optimierst, schick Anthropic eine E-Mail“,
und diese Art der Rekrutierung finde ich ziemlich interessant
Das wirkt viel besser als ein typisches Leetcode-Problem
Danach bekommt man wie andere Bewerber trotzdem Leetcode-Interviews
Für Berufstätige, die sich parallel bei mehreren Unternehmen bewerben, ist das unrealistisch
Leetcode lässt sich wiederverwenden, solche Optimierungsprobleme haben jedoch geringen Wiederverwendungswert
Das war ein wirklich spannendes Problem
Wer sich für Optimierung interessiert, sollte es unbedingt ausprobieren
Ich habe über eine Woche hinweg meine Abendstunden investiert und bin auf 1112 Zyklen gekommen
Das meiste habe ich von Hand gemacht, aber ich frage mich, ob heutige agentische Modelle noch bessere Ergebnisse erzielen würden
Ich finde, diese Aufgabe hat etwas von demoscene und code golf
Auch das Profiling mit dem Chrome-Tracing-Tool ist cool
Link zum Problemcode
Ich frage mich nur, welcher Algorithmus hier implementiert wird
Beim kurzen Drüberschauen wirkte es wie eine Random-Forest-Vorhersage
So spart man sich die Mühe, selbst einen Viewer zu bauen
Ich lerne gerade SIMD, PTX und Optimierungstechniken, daher war diese Aufgabe eine gute Lerngelegenheit
Aber als Take-Home-Aufgabe wäre sie wohl zu lang gewesen
Tatsächlich hätte ich vermutlich schon etwa 2 Stunden nur damit verbracht, Ideen zu skizzieren und den Code zu lesen
Tatsächliche Bewerber könnten eher zwischen 6 Stunden und 2 Tagen gebraucht haben
Mit Opus bin ich derzeit in 1 Stunde auf 1137 Zyklen gekommen
Ich habe eine Pipeline mit vektorisiertem Hashing, spekulativer Ausführung, statischem Code pro Stage sowie Prolog/Epilog je Phase angewendet
Jetzt scheint sogar unter 900 möglich zu sein
Mir ist aufgefallen, dass man allein mit Bit 16 und 0 von Stage 4 die Gerade/Ungerade-Logik von Stage 5 parallel berechnen kann