7 Punkte von GN⁺ 2025-08-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Claude Opus 4.1 ist eine verbesserte Version mit gesteigerter Performance in praktischem Coding, agentischen Workflows und Reasoning.
  • In SWE-bench Verified hat es eine beste Code-Leistung von 74,5 % erreicht und zeigt herausragende Ergebnisse bei präzisem Debugging in großen Codebasen, Refactoring über mehrere Dateien und ähnlichen Aufgaben.
  • Reale Nutzer wie Rakuten, GitHub, Windsurf loben die genauere Codekorrektur, die Effizienz bei der täglichen Fehlersuche und die deutlich verbesserte Bewertung im Junior-Entwickler-Benchmark.
  • Bei Refactoring mehrerer Dateien und präzisen Codeänderungen zeigt es in echten Entwicklungsumgebungen eine noch differenziertere Leistung.
  • Bestehende Opus-4-Nutzer können ohne Zusatzkosten sofort über API, Claude Code, Amazon Bedrock, Google Vertex AI genutzt werden.

Wichtige Merkmale von Claude Opus 4.1

  • Gegenüber dem bisherigen Claude Opus 4 wurden agentische Arbeit, echte Codeerstellung und komplexe Reasoning-Aufgaben deutlich verbessert.
  • In den nächsten Wochen sind weitere größere Verbesserungen des Modells vorgesehen.

Hauptverbesserungen

  • In SWE-bench Verified wurde eine Code-Leistung von 74,5 % erreicht.
    • Besonders deutlich verbesserte Deep-Research- und Datenanalysefähigkeiten, vor allem bei der Detailnachverfolgung und agentischer Suche.
    • In einem praxisnahen, codebasierten Benchmark zur Fehlerbehebung in großen Open-Source-Repositories erzielt es überdurchschnittliche Ergebnisse.
  • Refactoring mehrerer Dateien und präzises Debugging in großen Codebasen sind für den realen Entwickleralltag optimiert.
    • Auf GitHub zeigt Opus 4.1 in den meisten Funktionen eine bessere Leistung als Opus 4, mit besonders deutlichen Ergebnissen beim Refactoring mehrerer Dateien.
    • Die Rakuten Group lobte, dass Opus 4.1 in riesigen Codebasen genau die erforderlichen Stellen korrigiert, ohne unnötige Änderungen oder Bug-Einträge und dabei den Stil beizubehalten.
    • Windsurf meldete, dass Opus 4.1 im eigenen Junior-Entwickler-Benchmark gegenüber Opus 4 um eine Standardabweichung verbessert wurde und das als einen Sprung bewertete, der einem Upgrade von Sonnet 3.7 auf Sonnet 4 entspricht.

Leistungsvergleich nach Kategorie

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74,5%
    • Vorheriger Claude(Opus 4): 72,5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • Höchste Genauigkeit bei realen Open-Source-Codeänderungsaufgaben
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (bestes Ergebnis)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Reasoning auf Hochschulebene (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (bestes Ergebnis)
    • Gemini 2.5 Pro: 86.4% (bestes Ergebnis)
  • Agentic tool use (TAU-bench)
    • Retail-Szenario: Claude Opus 4.1 82.4% (bestes Ergebnis), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Airline-Szenario: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro: Keine Punktzahl in diesem Bereich veröffentlicht
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (bestes Ergebnis)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: Nicht veröffentlicht
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (bestes Ergebnis)
    • Gemini 2.5 Pro: 82% (bestes Ergebnis)
  • High school math competition (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (bestes Ergebnis)
    • Gemini 2.5 Pro: 88% (bestes Ergebnis)
  • Zusammenfassung der Benchmarktabelle

    • Claude Opus 4.1 zeigt im Vergleich zum Vorgänger in allen Bereichen einen konsistenten Aufwärtstrend und erzielt Spitzenwerte in praxisnahen Benchmarks wie Codeautomatisierung, Refactoring mehrerer Dateien, mehrsprachigem Q&A und Tool-Nutzung.
    • In den Bereichen Mathematik, visuelles Reasoning und fortgeschrittenes Reasoning (GPQA) liegen OpenAI o3 und Gemini 2.5 Pro teilweise vorn, während es bei echter Codeproduktivität und multilingualer QA mit Claude Opus 4.1 am stärksten ist.
    • Im Airline-Szenario (Agentic tool use) gibt es einen leichten Rückgang; bei visuellem Reasoning und Mathematik führen andere Modelle knapp vor.

Praxisbetrieb und Deployment

  • Bestehende Opus-4-Nutzer sollten direkt auf claude-opus-4-1-20250805 über die API upgraden.
  • Bereitstellung und Nutzung sind über API, Claude Code, Amazon Bedrock, Google Vertex AI über verschiedene Wege möglich.
  • Die gleiche Preisstruktur wie bei Opus 4 gilt; bestehende Nutzer wird ein sofortiges Upgrade empfohlen.
  • Zusätzlich zu Systemkarte, Modellbeschreibung, Preisen und offizieller Dokumentation wurden detaillierte Benchmarks und Bewertungsmethoden veröffentlicht.

Zukünftige Pläne

  • Opus 4.1 ist ein moderates Update, das die neuesten Fortschritte im Coding- und Reasoning-Bereich widerspiegelt, mit dem Hinweis auf deutlich größere Verbesserungen in den kommenden Wochen.
  • Auf Basis von Nutzerfeedback sollen kontinuierliche Leistungsverbesserungen und Feature-Erweiterungen umgesetzt werden.

Hinweise

  • Bei der Vergleichsdatenquelle, den Benchmark-Ergebnissen sowie der Frage der Nutzung von erweitertem Thinking je Modell werden transparente Angaben zu OpenAI o3, Gemini 2.5 Pro und anderen aktuellen Modellen gemacht.

Noch keine Kommentare.

Noch keine Kommentare.