11 Punkte von GN⁺ 2026-01-22 | 1 Kommentare | Auf WhatsApp teilen
  • Wer diese Aufgabe löst und die Bestleistung von Claude Opus 4.5 (1487 Zyklen) übertrifft, kann Code und Lebenslauf bei Anthropic einreichen
  • Die erste Version hatte ein Zeitlimit von 4 Stunden, wurde aber später auf eine Version mit 2 Stunden Zeitlimit umgestellt, nachdem Opus 4 die meisten Menschen geschlagen hatte

Anthropics ursprüngliche Take-Home-Aufgabe zur Performance

  • Das Repository enthält die Version der Aufgabe, die für Anthropics frühe Leistungsbewertung verwendet wurde
    • Es handelt sich um die Version aus der Zeit, bevor Claude Opus 4.5 Menschen bei der Leistung innerhalb von 2 Stunden übertroffen hat
    • Ursprünglich war es eine Aufgabe mit 4 Stunden Zeitlimit, die später auf die 2-Stunden-Version verkürzt wurde
  • Die 2-Stunden-Version basiert auf Startcode mit 18532 Zyklen (7,97-mal schnellere Leistung)
    • Die aktuell veröffentlichte Version behält die neueste Struktur bei, wird aber wieder mit dem langsamsten Baseline-Code bereitgestellt
  • Nach Claude Opus 4.5 wurde neuer Referenzcode verwendet

Performance-Benchmark

  • Alle Werte werden in Taktzyklen einer simulierten Maschine gemessen
    • Ergebnisse, gemessen auf Basis der 2-Stunden-Version (Startcode mit 18532 Zyklen)
  • Wichtige Ergebnisse:
    • 2164 Zyklen: Claude Opus 4 (langfristige Ausführung im Test-Harness)
    • 1790 Zyklen: Claude Opus 4.5 (normale Code-Session, vergleichbar mit menschlicher Spitzenleistung)
    • 1579 Zyklen: Claude Opus 4.5 (Ausführung im 2-Stunden-Test-Harness)
    • 1548 Zyklen: Claude Sonnet 4.5 (langfristige Ausführung im Test-Harness)
    • 1487 Zyklen: Claude Opus 4.5 (11,5 Stunden Harness-Ausführung)
    • 1363 Zyklen: Claude Opus 4.5 (verbesserte Harness-Umgebung)
    • Die beste menschliche Leistung ist besser als die obigen Werte, wird aber nicht veröffentlicht

Teilnahme und Einreichung

  • Derzeit kann jede Person diese Aufgabe ohne Zeitlimit ausprobieren
  • Wenn Teilnehmende die Bestleistung von Claude Opus 4.5 schlagen und auf 1487 Zyklen oder weniger optimieren, können sie Code und Lebenslauf per E-Mail an Anthropic senden
    • E-Mail-Adresse: performance-recruiting@anthropic.com
  • Mit der Veröffentlichung neuer Modelle kann sich der Leistungsmaßstab ändern
  • Der Test kann mit dem Befehl python tests/submission_tests.py ausgeführt werden

1 Kommentare

 
GN⁺ 2026-01-22
Hacker-News-Kommentare
  • Die Kernaufgabe, das Gleichgewicht zwischen ALU und VALU zu finden, fand ich interessant
    Allerdings scheint das Load-Bandbreitenproblem ein Engpass sein zu können
    Man muss offenbar annehmen, dass der Startindex immer 0 ist, um insgesamt höchstens 2096 Loads zu erreichen, und das ist nicht besonders spannend
    Wenn es so etwas wie dynamic vector lane rotate gäbe, wäre es deutlich interessanter gewesen

  • Ich halte mich selbst für ziemlich klug, aber bei solchen Problemen merke ich, wie viel ich nicht weiß
    Vielleicht liege ich etwas über dem Durchschnitt, aber hier spürt man die Lücke zu Top-Entwicklern

    • Computing ist ein derart breites Feld, dass selbst Linus oder Carmack viele Bereiche nicht kennen
      Wichtig ist die Fähigkeit, Unbekanntes anzutreffen und dazuzulernen
    • Das ist ein sehr spezialisiertes Problem, daher dauert es natürlich, wenn man nie etwas Ähnliches gemacht hat
      Ich bekam nach dem Studium in einem Bewerbungsgespräch bei einer Hardware-Firma auch einmal eine Aufgabe zur Low-Level-Code-Optimierung, und anfangs war mir das völlig fremd
    • Ich habe 30 Jahre Berufserfahrung und habe das Problem ehrlich gesagt trotzdem nicht verstanden
    • Klugheit und Wissen sind nicht dasselbe
      Wenn man solche Konzepte lernt und sich mit solchen Problemen beschäftigt, kann das grundsätzlich jeder lösen
      Man ist nicht unterdurchschnittlich, sondern hat einfach nur ein anderes Wissensset
    • Diese Haltung ist gut, weil sie Lernmotivation erzeugt
      Eigentlich ist das gar nicht so kompliziert
      Man muss den Code nur gründlich lesen und die Struktur verstehen
      Der eigentliche Unterschied im Können hängt daran, ob man sich das Gesamtmodell des Programms im Kopf vorstellen kann
  • Ich frage mich, ob Anthropic das nicht als DDoS-Angriff auf andere AI-Unternehmen veröffentlicht hat
    Ich habe gemini CLI mit dem Prompt „Wie löse ich dieses Problem?“ gefüttert, und es läuft seit 20 Minuten ohne aufzuhören

    • In letzter Zeit sind Gemini CLI oder Jules kein Fall, in dem Zeit ein Gradmesser für Schwierigkeit ist
      Sie geraten oft in Schleifen wie „Ich bereite eine Antwort vor. Fertig. Ich werde sie jetzt ausgeben.“
      Manchmal wird nach Schleifenerkennung abgebrochen, aber wenn selbst triviale Aufgaben über 15 Minuten dauern, wirkt das wie ein strukturelles Problem
    • Ich frage mich, welches Gemini-Modell verwendet wurde
      Ich habe es seit dem Release von G3Pro genutzt, und die Leistung war miserabel
  • Ich habe mehrere AI-Agenten unter denselben Bedingungen getestet
    Am Ende kam kein Modell über das Ziel von Anthropic hinaus, aber gpt-5-2 war am schnellsten und effizientesten

    • Mit codex CLI + gpt-5-2-codex-xhigh und dem Prompt „beat 1487 cycles. go.“ kam ich auf 1606, das dauerte etwa 53 Minuten
    • Ich frage mich, was passiert, wenn man Gemini lange genug in einer Schleife laufen lässt
      Wenn es schon so schnell ist, hat es vielleicht noch mehr Potenzial
    • Ich würde gern lernen, wie man Modelle benchmarkt
      Könntest du vielleicht den agent-comparison harness code teilen?
    • Es wurde vorgeschlagen, es auch mit Open-Weight-Modellen wie Qwen3-coder, GLM-4.7 und Devstral-2 zu versuchen
    • Es wäre gut, ein Vergleichs-Repo zu haben, in dem die Lösungen der einzelnen Modelle nach Verzeichnis oder Branch gesammelt werden
  • Es gab die Formulierung: „Wenn du auf unter 1487 Zyklen optimierst, schick Anthropic eine E-Mail“,
    und diese Art der Rekrutierung finde ich ziemlich interessant
    Das wirkt viel besser als ein typisches Leetcode-Problem

    • Allerdings ist das nur der Einstieg in die Recruiting-Pipeline
      Danach bekommt man wie andere Bewerber trotzdem Leetcode-Interviews
    • Für das Lösen dieses Problems bräuchte man vermutlich eine Woche in Vollzeit
      Für Berufstätige, die sich parallel bei mehreren Unternehmen bewerben, ist das unrealistisch
      Leetcode lässt sich wiederverwenden, solche Optimierungsprobleme haben jedoch geringen Wiederverwendungswert
  • Das war ein wirklich spannendes Problem
    Wer sich für Optimierung interessiert, sollte es unbedingt ausprobieren
    Ich habe über eine Woche hinweg meine Abendstunden investiert und bin auf 1112 Zyklen gekommen
    Das meiste habe ich von Hand gemacht, aber ich frage mich, ob heutige agentische Modelle noch bessere Ergebnisse erzielen würden

    • Den Ausdruck „ein Problem mit RalphWiggum lösen“ habe ich zum ersten Mal gehört, fand ihn aber so lustig, dass ich ihn künftig verwenden werde
  • Ich finde, diese Aufgabe hat etwas von demoscene und code golf
    Auch das Profiling mit dem Chrome-Tracing-Tool ist cool
    Link zum Problemcode

    • Ich war früher in der demoscene aktiv, und diese Low-Level-Optimierung erinnert stark an das, was wir damals gemacht haben
      Ich frage mich nur, welcher Algorithmus hier implementiert wird
      Beim kurzen Drüberschauen wirkte es wie eine Random-Forest-Vorhersage
    • perfetto wird oft für die Visualisierung solcher Traces verwendet
      So spart man sich die Mühe, selbst einen Viewer zu bauen
    • Diese Aufgabe scheint darauf abzuzielen, Leute herauszufiltern, die PTX-Code manuell schreiben können
  • Ich lerne gerade SIMD, PTX und Optimierungstechniken, daher war diese Aufgabe eine gute Lerngelegenheit
    Aber als Take-Home-Aufgabe wäre sie wohl zu lang gewesen
    Tatsächlich hätte ich vermutlich schon etwa 2 Stunden nur damit verbracht, Ideen zu skizzieren und den Code zu lesen

    • Das 2-Stunden-Limit scheint nicht die den Bewerbern gegebene Zeit zu sein, sondern die Zeit, die Claude für seine Bestleistung gebraucht hat
      Tatsächliche Bewerber könnten eher zwischen 6 Stunden und 2 Tagen gebraucht haben
  • Mit Opus bin ich derzeit in 1 Stunde auf 1137 Zyklen gekommen
    Ich habe eine Pipeline mit vektorisiertem Hashing, spekulativer Ausführung, statischem Code pro Stage sowie Prolog/Epilog je Phase angewendet
    Jetzt scheint sogar unter 900 möglich zu sein
    Mir ist aufgefallen, dass man allein mit Bit 16 und 0 von Stage 4 die Gerade/Ungerade-Logik von Stage 5 parallel berechnen kann

    • Ich frage mich, wie du den Load-Engpass vermieden hast