Anthropic veröffentlicht Open-Source-Take-Home-Aufgabe zur Leistungsbewertung

(github.com/anthropics)

11 Punkte von GN⁺ 2026-01-22 | 1 Kommentare | Auf WhatsApp teilen

Wer diese Aufgabe löst und die Bestleistung von Claude Opus 4.5 (1487 Zyklen) übertrifft, kann Code und Lebenslauf bei Anthropic einreichen
Die erste Version hatte ein Zeitlimit von 4 Stunden, wurde aber später auf eine Version mit 2 Stunden Zeitlimit umgestellt, nachdem Opus 4 die meisten Menschen geschlagen hatte

Anthropics ursprüngliche Take-Home-Aufgabe zur Performance

Das Repository enthält die Version der Aufgabe, die für Anthropics frühe Leistungsbewertung verwendet wurde
- Es handelt sich um die Version aus der Zeit, bevor Claude Opus 4.5 Menschen bei der Leistung innerhalb von 2 Stunden übertroffen hat
- Ursprünglich war es eine Aufgabe mit 4 Stunden Zeitlimit, die später auf die 2-Stunden-Version verkürzt wurde
Die 2-Stunden-Version basiert auf Startcode mit 18532 Zyklen (7,97-mal schnellere Leistung)
- Die aktuell veröffentlichte Version behält die neueste Struktur bei, wird aber wieder mit dem langsamsten Baseline-Code bereitgestellt
Nach Claude Opus 4.5 wurde neuer Referenzcode verwendet

Performance-Benchmark

Alle Werte werden in Taktzyklen einer simulierten Maschine gemessen
- Ergebnisse, gemessen auf Basis der 2-Stunden-Version (Startcode mit 18532 Zyklen)
Wichtige Ergebnisse:
- 2164 Zyklen: Claude Opus 4 (langfristige Ausführung im Test-Harness)
- 1790 Zyklen: Claude Opus 4.5 (normale Code-Session, vergleichbar mit menschlicher Spitzenleistung)
- 1579 Zyklen: Claude Opus 4.5 (Ausführung im 2-Stunden-Test-Harness)
- 1548 Zyklen: Claude Sonnet 4.5 (langfristige Ausführung im Test-Harness)
- 1487 Zyklen: Claude Opus 4.5 (11,5 Stunden Harness-Ausführung)
- 1363 Zyklen: Claude Opus 4.5 (verbesserte Harness-Umgebung)
- Die beste menschliche Leistung ist besser als die obigen Werte, wird aber nicht veröffentlicht

Teilnahme und Einreichung

Derzeit kann jede Person diese Aufgabe ohne Zeitlimit ausprobieren
Wenn Teilnehmende die Bestleistung von Claude Opus 4.5 schlagen und auf 1487 Zyklen oder weniger optimieren, können sie Code und Lebenslauf per E-Mail an Anthropic senden
- E-Mail-Adresse: performance-recruiting@anthropic.com
Mit der Veröffentlichung neuer Modelle kann sich der Leistungsmaßstab ändern
Der Test kann mit dem Befehl python tests/submission_tests.py ausgeführt werden

1 Kommentare

GN⁺ 2026-01-22

Hacker-News-Kommentare

Die Kernaufgabe, das Gleichgewicht zwischen ALU und VALU zu finden, fand ich interessant
Allerdings scheint das Load-Bandbreitenproblem ein Engpass sein zu können
Man muss offenbar annehmen, dass der Startindex immer 0 ist, um insgesamt höchstens 2096 Loads zu erreichen, und das ist nicht besonders spannend
Wenn es so etwas wie dynamic vector lane rotate gäbe, wäre es deutlich interessanter gewesen
Ich halte mich selbst für ziemlich klug, aber bei solchen Problemen merke ich, wie viel ich nicht weiß
Vielleicht liege ich etwas über dem Durchschnitt, aber hier spürt man die Lücke zu Top-Entwicklern
- Computing ist ein derart breites Feld, dass selbst Linus oder Carmack viele Bereiche nicht kennen
  Wichtig ist die Fähigkeit, Unbekanntes anzutreffen und dazuzulernen
- Das ist ein sehr spezialisiertes Problem, daher dauert es natürlich, wenn man nie etwas Ähnliches gemacht hat
  Ich bekam nach dem Studium in einem Bewerbungsgespräch bei einer Hardware-Firma auch einmal eine Aufgabe zur Low-Level-Code-Optimierung, und anfangs war mir das völlig fremd
- Ich habe 30 Jahre Berufserfahrung und habe das Problem ehrlich gesagt trotzdem nicht verstanden
- Klugheit und Wissen sind nicht dasselbe
  Wenn man solche Konzepte lernt und sich mit solchen Problemen beschäftigt, kann das grundsätzlich jeder lösen
  Man ist nicht unterdurchschnittlich, sondern hat einfach nur ein anderes Wissensset
- Diese Haltung ist gut, weil sie Lernmotivation erzeugt
  Eigentlich ist das gar nicht so kompliziert
  Man muss den Code nur gründlich lesen und die Struktur verstehen
  Der eigentliche Unterschied im Können hängt daran, ob man sich das Gesamtmodell des Programms im Kopf vorstellen kann
Ich frage mich, ob Anthropic das nicht als DDoS-Angriff auf andere AI-Unternehmen veröffentlicht hat
Ich habe gemini CLI mit dem Prompt „Wie löse ich dieses Problem?“ gefüttert, und es läuft seit 20 Minuten ohne aufzuhören
- In letzter Zeit sind Gemini CLI oder Jules kein Fall, in dem Zeit ein Gradmesser für Schwierigkeit ist
  Sie geraten oft in Schleifen wie „Ich bereite eine Antwort vor. Fertig. Ich werde sie jetzt ausgeben.“
  Manchmal wird nach Schleifenerkennung abgebrochen, aber wenn selbst triviale Aufgaben über 15 Minuten dauern, wirkt das wie ein strukturelles Problem
- Ich frage mich, welches Gemini-Modell verwendet wurde
  Ich habe es seit dem Release von G3Pro genutzt, und die Leistung war miserabel
Ich habe mehrere AI-Agenten unter denselben Bedingungen getestet
Am Ende kam kein Modell über das Ziel von Anthropic hinaus, aber gpt-5-2 war am schnellsten und effizientesten
- Mit codex CLI + gpt-5-2-codex-xhigh und dem Prompt „beat 1487 cycles. go.“ kam ich auf 1606, das dauerte etwa 53 Minuten
- Ich frage mich, was passiert, wenn man Gemini lange genug in einer Schleife laufen lässt
  Wenn es schon so schnell ist, hat es vielleicht noch mehr Potenzial
- Ich würde gern lernen, wie man Modelle benchmarkt
  Könntest du vielleicht den agent-comparison harness code teilen?
- Es wurde vorgeschlagen, es auch mit Open-Weight-Modellen wie Qwen3-coder, GLM-4.7 und Devstral-2 zu versuchen
- Es wäre gut, ein Vergleichs-Repo zu haben, in dem die Lösungen der einzelnen Modelle nach Verzeichnis oder Branch gesammelt werden
Es gab die Formulierung: „Wenn du auf unter 1487 Zyklen optimierst, schick Anthropic eine E-Mail“,
und diese Art der Rekrutierung finde ich ziemlich interessant
Das wirkt viel besser als ein typisches Leetcode-Problem
- Allerdings ist das nur der Einstieg in die Recruiting-Pipeline
  Danach bekommt man wie andere Bewerber trotzdem Leetcode-Interviews
- Für das Lösen dieses Problems bräuchte man vermutlich eine Woche in Vollzeit
  Für Berufstätige, die sich parallel bei mehreren Unternehmen bewerben, ist das unrealistisch
  Leetcode lässt sich wiederverwenden, solche Optimierungsprobleme haben jedoch geringen Wiederverwendungswert
Das war ein wirklich spannendes Problem
Wer sich für Optimierung interessiert, sollte es unbedingt ausprobieren
Ich habe über eine Woche hinweg meine Abendstunden investiert und bin auf 1112 Zyklen gekommen
Das meiste habe ich von Hand gemacht, aber ich frage mich, ob heutige agentische Modelle noch bessere Ergebnisse erzielen würden
- Den Ausdruck „ein Problem mit RalphWiggum lösen“ habe ich zum ersten Mal gehört, fand ihn aber so lustig, dass ich ihn künftig verwenden werde
Ich finde, diese Aufgabe hat etwas von demoscene und code golf
Auch das Profiling mit dem Chrome-Tracing-Tool ist cool
Link zum Problemcode
- Ich war früher in der demoscene aktiv, und diese Low-Level-Optimierung erinnert stark an das, was wir damals gemacht haben
  Ich frage mich nur, welcher Algorithmus hier implementiert wird
  Beim kurzen Drüberschauen wirkte es wie eine Random-Forest-Vorhersage
- perfetto wird oft für die Visualisierung solcher Traces verwendet
  So spart man sich die Mühe, selbst einen Viewer zu bauen
- Diese Aufgabe scheint darauf abzuzielen, Leute herauszufiltern, die PTX-Code manuell schreiben können
Ich lerne gerade SIMD, PTX und Optimierungstechniken, daher war diese Aufgabe eine gute Lerngelegenheit
Aber als Take-Home-Aufgabe wäre sie wohl zu lang gewesen
Tatsächlich hätte ich vermutlich schon etwa 2 Stunden nur damit verbracht, Ideen zu skizzieren und den Code zu lesen
- Das 2-Stunden-Limit scheint nicht die den Bewerbern gegebene Zeit zu sein, sondern die Zeit, die Claude für seine Bestleistung gebraucht hat
  Tatsächliche Bewerber könnten eher zwischen 6 Stunden und 2 Tagen gebraucht haben
Mit Opus bin ich derzeit in 1 Stunde auf 1137 Zyklen gekommen
Ich habe eine Pipeline mit vektorisiertem Hashing, spekulativer Ausführung, statischem Code pro Stage sowie Prolog/Epilog je Phase angewendet
Jetzt scheint sogar unter 900 möglich zu sein
Mir ist aufgefallen, dass man allein mit Bit 16 und 0 von Stage 4 die Gerade/Ungerade-Logik von Stage 5 parallel berechnen kann
- Ich frage mich, wie du den Load-Engpass vermieden hast

Anthropic veröffentlicht Open-Source-Take-Home-Aufgabe zur Leistungsbewertung

Anthropics ursprüngliche Take-Home-Aufgabe zur Performance

Performance-Benchmark

Teilnahme und Einreichung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare