7 Punkte von GN⁺ 2025-08-06 | 1 Kommentare | Auf WhatsApp teilen
  • Claude Opus 4.1 ist eine verbesserte Version mit gesteigerter Performance in praktischem Coding, agentischen Workflows und Reasoning.
  • In SWE-bench Verified hat es eine beste Code-Leistung von 74,5 % erreicht und zeigt herausragende Ergebnisse bei präzisem Debugging in großen Codebasen, Refactoring über mehrere Dateien und ähnlichen Aufgaben.
  • Reale Nutzer wie Rakuten, GitHub, Windsurf loben die genauere Codekorrektur, die Effizienz bei der täglichen Fehlersuche und die deutlich verbesserte Bewertung im Junior-Entwickler-Benchmark.
  • Bei Refactoring mehrerer Dateien und präzisen Codeänderungen zeigt es in echten Entwicklungsumgebungen eine noch differenziertere Leistung.
  • Bestehende Opus-4-Nutzer können ohne Zusatzkosten sofort über API, Claude Code, Amazon Bedrock, Google Vertex AI genutzt werden.

Wichtige Merkmale von Claude Opus 4.1

  • Gegenüber dem bisherigen Claude Opus 4 wurden agentische Arbeit, echte Codeerstellung und komplexe Reasoning-Aufgaben deutlich verbessert.
  • In den nächsten Wochen sind weitere größere Verbesserungen des Modells vorgesehen.

Hauptverbesserungen

  • In SWE-bench Verified wurde eine Code-Leistung von 74,5 % erreicht.
    • Besonders deutlich verbesserte Deep-Research- und Datenanalysefähigkeiten, vor allem bei der Detailnachverfolgung und agentischer Suche.
    • In einem praxisnahen, codebasierten Benchmark zur Fehlerbehebung in großen Open-Source-Repositories erzielt es überdurchschnittliche Ergebnisse.
  • Refactoring mehrerer Dateien und präzises Debugging in großen Codebasen sind für den realen Entwickleralltag optimiert.
    • Auf GitHub zeigt Opus 4.1 in den meisten Funktionen eine bessere Leistung als Opus 4, mit besonders deutlichen Ergebnissen beim Refactoring mehrerer Dateien.
    • Die Rakuten Group lobte, dass Opus 4.1 in riesigen Codebasen genau die erforderlichen Stellen korrigiert, ohne unnötige Änderungen oder Bug-Einträge und dabei den Stil beizubehalten.
    • Windsurf meldete, dass Opus 4.1 im eigenen Junior-Entwickler-Benchmark gegenüber Opus 4 um eine Standardabweichung verbessert wurde und das als einen Sprung bewertete, der einem Upgrade von Sonnet 3.7 auf Sonnet 4 entspricht.

Leistungsvergleich nach Kategorie

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74,5%
    • Vorheriger Claude(Opus 4): 72,5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • Höchste Genauigkeit bei realen Open-Source-Codeänderungsaufgaben
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (bestes Ergebnis)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Reasoning auf Hochschulebene (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (bestes Ergebnis)
    • Gemini 2.5 Pro: 86.4% (bestes Ergebnis)
  • Agentic tool use (TAU-bench)
    • Retail-Szenario: Claude Opus 4.1 82.4% (bestes Ergebnis), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Airline-Szenario: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro: Keine Punktzahl in diesem Bereich veröffentlicht
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (bestes Ergebnis)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: Nicht veröffentlicht
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (bestes Ergebnis)
    • Gemini 2.5 Pro: 82% (bestes Ergebnis)
  • High school math competition (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (bestes Ergebnis)
    • Gemini 2.5 Pro: 88% (bestes Ergebnis)
  • Zusammenfassung der Benchmarktabelle

    • Claude Opus 4.1 zeigt im Vergleich zum Vorgänger in allen Bereichen einen konsistenten Aufwärtstrend und erzielt Spitzenwerte in praxisnahen Benchmarks wie Codeautomatisierung, Refactoring mehrerer Dateien, mehrsprachigem Q&A und Tool-Nutzung.
    • In den Bereichen Mathematik, visuelles Reasoning und fortgeschrittenes Reasoning (GPQA) liegen OpenAI o3 und Gemini 2.5 Pro teilweise vorn, während es bei echter Codeproduktivität und multilingualer QA mit Claude Opus 4.1 am stärksten ist.
    • Im Airline-Szenario (Agentic tool use) gibt es einen leichten Rückgang; bei visuellem Reasoning und Mathematik führen andere Modelle knapp vor.

Praxisbetrieb und Deployment

  • Bestehende Opus-4-Nutzer sollten direkt auf claude-opus-4-1-20250805 über die API upgraden.
  • Bereitstellung und Nutzung sind über API, Claude Code, Amazon Bedrock, Google Vertex AI über verschiedene Wege möglich.
  • Die gleiche Preisstruktur wie bei Opus 4 gilt; bestehende Nutzer wird ein sofortiges Upgrade empfohlen.
  • Zusätzlich zu Systemkarte, Modellbeschreibung, Preisen und offizieller Dokumentation wurden detaillierte Benchmarks und Bewertungsmethoden veröffentlicht.

Zukünftige Pläne

  • Opus 4.1 ist ein moderates Update, das die neuesten Fortschritte im Coding- und Reasoning-Bereich widerspiegelt, mit dem Hinweis auf deutlich größere Verbesserungen in den kommenden Wochen.
  • Auf Basis von Nutzerfeedback sollen kontinuierliche Leistungsverbesserungen und Feature-Erweiterungen umgesetzt werden.

Hinweise

  • Bei der Vergleichsdatenquelle, den Benchmark-Ergebnissen sowie der Frage der Nutzung von erweitertem Thinking je Modell werden transparente Angaben zu OpenAI o3, Gemini 2.5 Pro und anderen aktuellen Modellen gemacht.

1 Kommentare

 
GN⁺ 2025-08-06
Hacker News Kommentare
  • Drei große Labs haben mit wenigen Stunden Abstand gleichzeitig etwas angekündigt, das fühlt sich wie ein totaler Anime-Plot-Twist an.
    • Genau deshalb gibt es PR-Teams: Es ist extrem wichtig, auf der HN-Startseite oder auf News-Sites Aufmerksamkeit zu bekommen. Auch wenn man nicht der Erste ist, ist es entscheidend, die Konkurrenzaufmerksamkeit zu verteilen.
    • Wenn man die GPT-5-Gerüchte einbezieht, denke ich, dass wir noch am Anfang von August sind.
    • Es ist erstaunlich, in dieser Ära zu leben.
    • Es fühlt sich so an, als würden sie warten, bis der Konkurrent zuerst etwas ankündigt, dann gleichzeitig rausgehen, damit der Markt entscheidet, was am besten ist.
    • Ich halte das für reinen Zufall.
  • Opus 4(.1) ist wirklich teuer Link. Sonnet liegt bei OpenRouter + Codename Goose Link ebenfalls bei etwa 5 USD pro Stunde. Erstaunlicherweise kostet Sonnet 3.5 Link genauso viel. Gemini Flash Link ist eher vernünftig, aber ich lande oft in einer Entscheidungsschleife. OpenAI ist nicht schlecht, doch nicht ganz auf Claude-Niveau in Sachen Leistung. Außerdem gibt Claude bei CTRL-C mittendrin einen 400-Fehler über die API zurück, was nervt. Mir ist Wirtschaftlichkeit wichtig, und die beste Kosten-Nutzen-Bilanz hatte für mich OpenAI ChatGPT 4.1 mini Link: kaum sinnlose Token, stabile API; manchmal ist es etwas verwirrend, aber es klappt im Großen und Ganzen.
    • Große Modelle für Modellanfragen, kleine Modelle für Kontextfragen; selbst Opus ist günstig, wenn man es passend einsetzt.
    • Mit einem Claude Code-Abo ist es deutlich preiswerter. Mit Max habe ich täglich den ganzen Tag Claude Code genutzt und in den letzten zwei Wochen nur zweimal das Limit erreicht.
    • Jedes Mal, wenn ich Preise vergleiche, war die Claude API immer am günstigsten. Wenn man den Kontext-Cache richtig ausnutzt, sinken die Eingangsgebühren um knapp 90 %, was enorm ist.
    • Ich würde auch Alternativen wie GLM 4.5, Kimi K2, Qwen Coder 3 und Gemini Pro 2.5 nennen wollen.
  • Opus wird als überlegen im Coding fast in allen Bereichen beschrieben, aber ich empfinde Sonnet als deutlich besser. Mich interessiert, ob jemand komplett auf Opus umgestiegen ist oder nur für bestimmte Aufgaben damit arbeitet.
    • Opus kann technisch besser sein, aber in der Praxis ist der Unterschied kaum spürbar. Es ist fast unmöglich, dass ein LLM eine komplexe Implementierung auf Anhieb richtig macht. Man muss zu viel erklären, und am Ende merke ich den richtigen Befund nur noch, wenn ich ihn selbst im Code aufsuche. Auch wenn Opus eine plausible Antwort gibt, muss ich verstehen, warum das Ergebnis so zustande kommt und warum es zu meinem Kontext passt. Meine Arbeit besteht meist aus kleinen, iterativen Schritten, daher reicht Sonnet für mich.
    • Wenn Sonnet plötzlich komisch wird (ein- bis zweimal am Tag), scheint der Wechsel zu Opus die Sache oft schnell zu lösen. Natürlich ist das keine wissenschaftliche Beobachtung; es kann genauso sein, dass jeder Modellwechsel hilft.
    • Dass „Sonnet ist besser“ häufiger genannt wird, hat keine wissenschaftliche Grundlage. Dass größere Modelle besser sind, ist selbstverständlich und wird nicht besonders hervorgehoben. Dass „kleinere Modelle manchmal besser sind“, klingt wie ein echter Tipp und wird daher eher geteilt. Ich habe das gestern geprüft, und die Meinungen waren unterschiedlich. Mein Fazit: Auf Max ist selbst ein kurzer Wechsel von Opus zu Sonnet kein Qualitätsabsturz, vor dem man Angst haben muss.
    • Opus scheint bei komplexen, mehrstufigen Problemen oder bei langen Aufgaben mit Kontextverfolgung besser zu sein. Deshalb nutze ich Opus nur für schwierige Probleme, den Rest mit Sonnet. Das reicht in der Regel und stößt seltener auf Token-Limits.
    • Ich nutze den Max-Plan, und Opus liefert bei mir etwas bessere Ergebnisse als Sonnet. Aber das gilt nur, wenn Opus verfügbar ist. Lustigerweise habe ich mit Max trotzdem schnell das Nutzungslimit erreicht; gestern nach Arbeitsbeginn in wenigen Minuten.
  • Opus 4.1 wirkt wie Opus 4, aber unnötig – eher ein schnellerer Tokenverbrauch. Es wäre gut, wenn man den Verbrauch sehen könnte. Sonnet 4 ist immerhin noch brauchbar, doch die Ausgaben werden zunehmend verschwommen. Heute Morgen habe ich Zeit in Claude Code verschwendet und denke, ich hätte es damals selbst besser gemacht.
    • Ich habe auch das Gefühl, dass Sonnet langsam schlechter wird: die Erklärungen werden länger, es wirkt immer länger, es packt vieles in Listen, und es nickt so zustimmend zu, dass man schon eine „Ja-mit-der-Konkurrenz“-Gewohnheit entwickelt.
    • Ich denke, das liegt daran, dass mein Projekt gewachsen ist. Ich versuche, mit Claude Code ein Projekt zu begleiten, das von 2.000 auf über 100.000 Zeilen gewachsen ist, und das fühlt sich dann eben schwer an.
    • Der neue Opus 4.1 wollte im ersten Dialog sofort die komplette Web-App bauen. Anders als der frühere, blockierte Bot versteht er den Kontext schneller, stellt die richtigen Fragen zum System und hat auch die Update-Dokumentation erledigt. Früher musste ich bei jedem Chat dieselbe Erklärung wiederholen, was mich genervt hat; das passiert jetzt nicht mehr. Dafür steigt der Token-Verbrauch aber eindeutig schneller, sodass ein stundenlanges Chatten wie früher kaum geht. Solange es noch die letzte Aufgabe vor dem Token-Limit schafft, bin ich zufrieden.
    • Auf den Satz „Ich habe heute Morgen Claude Code verschwendet“ passt „Welcome to the machine“ Link
  • Mit dem neuen Modell wurde „Claude Plays Pokemon“ wieder gestartet Link, vorher war es wochenlang im versteckten Bereich von Team Rocket gefangen.
  • Der Artikel sagt, dass „das Modell in den nächsten Wochen deutlich verbessert“ wird. Sonnet 4 war für unser Produkt am passendsten, aber Haiku 4 (oder 4.1) scheint günstiger zu sein, und ich würde es gern mal testen; es ist erstaunlich, dass Anthropic in diesem Release nicht einmal Haiku 4 erwähnt.
  • Heute war mein schlimmster Tag mit Claude, einfach kaputt. Ob es am heutigen Deployment liegt, weiß ich nicht; in den Dokumenten tauchten Schimpfwörter auf, und ein Bug blieb nach Stunden von Hin- und Her bestehen.
  • Am meisten interessiert mich im Artikel der Satz, dass das Modell in den nächsten Wochen deutlich verbessert werden soll.
    • Das wirkt wie ein Hinweis: Bleibt bitte nicht sofort bei GPT5.
  • Dieses Update bringt aus ihrer Sicht kaum Verbesserungen. Es ist nicht schlecht, aber ich glaube kaum, dass jemand diesen Unterschied spürt.
    • Wahrscheinlich ist es vor allem ein Stimmungsfaktor ("Vibe"), aber auch der ist relevant. Nicht in offiziellen Benchmarks, aber Opus 4.1 zeigte im Junior-Developer-Benchmark etwa eine Verbesserung von einer Standardabweichung gegenüber Opus 4, was angeblich einem Sprung von Sonnet 3.7 zu Sonnet 4 entspricht.
    • Ich habe es noch nicht sauber getestet, aber ich sehe keinen klaren Unterschied in der Ausgabequalität. Dafür wirkt es so, als folge es bereitgestellten Dokumenten oder Richtlinien besser, aber ich konnte das weder quantifizieren noch objektiv nachweisen. Opus 4.1 folgt nicht nur bei „Needles-in-the-Haystack“-Aufgaben, sondern befolgt solche Punkte auch ohne explizite Vorgabe besser.
    • Deshalb glaube ich, dass sie es 4.1 genannt haben und nicht 4.5.
    • Es wirkt, als hätten sie noch genug Luft für zehn weitere Modelle. Wenn Benchmarks 100% erreichen würden, bräuchte man kein neues Modell — es wirkt leicht wie bewusstes Marketing mit angepassten Zahlen. Da das Trainingsset im Grunde dasselbe bleibt, bleibt man bei völlig neuen Fragen schwach.
    • Auf der Notenbild-Tafel war es interessant, dass nur Opus 4.1 hervorgehoben wurde. Opus 4.1 liegt nur bei etwa der Hälfte der Benchmarks vorn, bei den übrigen ist es nicht oder sogar unter Opus 4.0, und die Werte der Konkurrenzmodelle wurden überhaupt nicht angezeigt.
  • Solange Opus und Sonnet den gleichen Preis haben, denke ich, dass die Opus-Nutzung Sonnet nicht schlagen wird. In der OpenRouter-Ranking-Liste Link verarbeiten Sonnet 3.7 und 4 zusammen etwa 17-mal mehr Tokens als Opus 4.