- Claude Opus 4.5 ist ein KI-Modell mit Spitzenleistung beim Schreiben von Code, beim Ausführen von Agenten und bei der Nutzung von Computern
- Im realen Software-Engineering-Test (SWE-bench Verified) erzielte es den Bestwert; Token-Effizienz und Schlussfolgerungsfähigkeit wurden deutlich verbessert
- Der Preis wurde auf $5/$25 pro 1 Million Tokens gesenkt, sodass mehr Entwickler und Unternehmen Funktionen auf Opus-Niveau nutzen können
- Mit dem neuen Parameter
effort, Kontextverwaltung und verbesserter Tool-Nutzung wurden die Claude Developer Platform und Claude Code deutlich aufgewertet
- Verstärkte Sicherheit und Alignment sowie eine verbesserte Abwehr von Prompt-Injection markieren einen Wendepunkt für das Vertrauen in den KI-Einsatz branchenübergreifend
Überblick über Claude Opus 4.5
- Anthropic hat Claude Opus 4.5 vorgestellt und als Modell auf Weltklasseniveau für Coding, Agenten und Computernutzung beschrieben
- Auch bei Alltagsaufgaben wie Recherche, Folien und Tabellenkalkulationen wurde die Leistung verbessert
- Es wird als ein Schritt bewertet, der den Umfang dessen erweitert, was KI-Systeme leisten können
- Opus 4.5 erzielte im SWE-bench Verified-Test den Höchstwert
- Sofort verfügbar in der Anthropic-App, über die API und auf den drei großen Cloud-Plattformen
- API-Modellname:
claude-opus-4-5-20251101
- Preis: Eingabe $5 / Ausgabe $25 (pro 1 Million Tokens)
Feedback von frühen Nutzern und aus Tests
- Interne Tests berichten von Verbesserungen beim Umgang mit mehrdeutigen Problemen und beim Lösen komplexer Bugs
- Frühe Nutzer aus mehreren Unternehmen gaben unter anderem folgendes Feedback
- Höhere Codequalität und halbierter Token-Verbrauch
- Starke Leistung bei mehrstufigem Schlussfolgern, langfristiger autonomer Arbeit und Agent-Workflows
- Mehr als 15 % bessere Effizienz gegenüber Sonnet 4.5
- Bestätigung der Möglichkeit, sich selbst verbessernde KI-Agenten umzusetzen
- Leistungssteigerungen in Bereichen wie Excel-Automatisierung, 3D-Visualisierung, Code-Review und Story-Generierung
- Gemeldete 50–75 % weniger Tool-Call-Fehler und Build-Fehler sowie höhere Geschwindigkeit
Leistungsbewertung
- In Anthropics internem Software-Engineering-Test übertraf das Modell den Bestwert menschlicher Kandidaten
- Bestleistung innerhalb des Zeitlimits von 2 Stunden
- Sehvermögen, Schlussfolgerung und mathematische Fähigkeiten wurden insgesamt verbessert und erreichten in vielen Benchmarks den State of the Art (SOTA)
- Im Test τ2-bench wurde ein Beispiel für kreative Problemlösung gezeigt
- Eine Richtlinie, nach der Flugtickets nicht geändert werden können, wurde nicht umgangen, sondern über ein legales Verfahren (Sitzplatz-Upgrade und anschließende Terminänderung) gelöst
- Der Benchmark wertete dies zwar als Fehlschlag, es wurde jedoch als Beispiel für kreative Schlussfolgerungsfähigkeit angeführt
Verbesserungen bei Sicherheit und Alignment
- Claude Opus 4.5 ist laut Anthropic das am stärksten alignte Modell, das das Unternehmen bisher veröffentlicht hat
- Die Widerstandsfähigkeit gegen Prompt-Injection-Angriffe liegt auf Spitzenniveau in der Branche
- Auch in einem starken Angriffs-Benchmark von Gray Swan wurden gute Ergebnisse erzielt
- Ein niedriger Wert bei „concerning behavior“ verringert die Wahrscheinlichkeit von missbräuchlicher Nutzung und autonomen Fehlfunktionen
- Detaillierte Sicherheits- und Leistungsbewertungen sind in der Claude Opus 4.5 System Card enthalten
Updates der Claude Developer Platform
- Opus 4.5 liefert bessere Ergebnisse mit weniger Tokens
- Mit dem neuen Parameter
effort lässt sich die Balance zwischen Geschwindigkeit, Kosten und Leistung anpassen
- Auf mittlerem
effort-Niveau gleiche Leistung wie Sonnet 4.5 bei 76 % weniger Output-Tokens
- Auf höchstem
effort-Niveau 4,3 % bessere Leistung und 48 % weniger Tokens gegenüber Sonnet 4.5
effort-Steuerung, context compaction und fortgeschrittene Tool-Nutzung verbessern die Effizienz bei langfristigen Aufgaben
- 15 % bessere Agentenleistung durch Kontextverwaltung und Speicherfunktionen
- Die Plattform entwickelt sich schrittweise zu einer modularen, kombinierbaren Architektur
Produkt-Updates
- Claude Code verbessert auf Basis von Opus 4.5 die Präzision und Ausführungskraft des Plan Mode
- Vor der Ausführung wird eine
plan.md-Datei erzeugt, die Nutzer prüfen können
- Die Desktop-App unterstützt parallele Ausführung mehrerer Sessions
- Die Claude-App behält mit einer automatischen Zusammenfassung langer Gespräche den Kontext bei
- Claude for Chrome wird für alle Max-Nutzer bereitgestellt
- Claude for Excel wird als Beta auf Max-, Team- und Enterprise-Nutzer ausgeweitet
- Durch eine Anhebung des dedizierten Nutzungslimits für Opus 4.5 wird der Einsatz in täglichen Arbeitsabläufen möglich
Weitere Informationen
- Alle Bewertungen (evals) wurden als Durchschnitt aus 5 Durchläufen mit 64K thinking budget, 200K Kontextfenster und der Standardeinstellung
effort (high) durchgeführt
- Einige Tests wie SWE-bench Verified und Terminal Bench verwendeten separate Einstellungen
- Zugehörige Forschungsergebnisse und Detailresultate finden sich in der Claude Opus 4.5 System Card
Verwandte Meldungen
- Claude wurde in Microsoft Foundry und Microsoft 365 Copilot integriert
- Microsoft, NVIDIA und Anthropic haben eine strategische Partnerschaft geschlossen
- Anthropic plant den Kauf von Azure-Rechenkapazität im Wert von 30 Milliarden Dollar sowie zusätzliche Verträge von bis zu 1 GW
- Zusammenarbeit mit der Regierung von Ruanda und ALX zum Ausbau der KI-Bildung in Afrika
2 Kommentare
Ich muss schon für 5G-Kommunikationsgebühren zahlen und auch noch Netflix abonnieren, und jetzt soll ich auch noch ein AI-Abo abschließen schnief.
Hacker-News-Kommentare
Im Mittelpunkt dieser Ankündigung steht die Preissenkung von Opus 4.5
$5/$25 pro MTok entspricht im Vergleich zu Opus 4 einer Reduktion um das Dreifache, sodass es nun nicht mehr nur ein „Modell für wichtige Aufgaben“ ist, sondern ein Modell, das tatsächlich in produktiven Workloads eingesetzt werden kann
Außerdem wird behauptet, die Resistenz gegen Prompt Injection liege auf SOTA-Niveau. Falls die Werte aus der System Card auch unter aggressiven Tests Bestand haben, wäre das für Betreiber von Agenten mit Tool-Zugriff von großer Bedeutung
Die Formulierung „am stärksten ausgerichtetes Modell“ wirkt allerdings etwas übertrieben, und ich bin auf Ergebnisse von Third-Party-Red-Teams gespannt
Die nur für Opus geltende Obergrenze wurde entfernt, und auch Max- sowie Team-Premium-Nutzer können nun ähnlich viele Tokens verwenden wie zu Sonnet-Zeiten
Laut Aussage wurden die Limits angepasst, damit sich Opus 4.5 im Arbeitsalltag einsetzen lässt
Beim Amp-Team lagen die durchschnittlichen Kosten pro Thread bei Sonnet 4.5 bei $1.83 und bei Opus 4.5 bei etwa $1.30
Ein größerer Kostenvorteil als der reine Tokenpreis ist die Verringerung von Fehlern durch höhere Intelligenz
Das Fine-Tuning auf Benchmarks scheint verstärkt worden zu sein, und mich interessiert die Leistung in nicht zielgerichteten Tests wie eqbench.com
Offenbar entwickelt sich der Begriff „Sicherheit“ inzwischen in eine andere Richtung
Das könnte allerdings etwas anderes sein als Resistenz gegen Prompt Injection
Dieses Modell wird wohl für 2–4 Wochen revolutionär sein, danach kommt vermutlich der „Nerf“
In den Monaten danach werden Leute, die auf nachlassende Leistung hinweisen, als „nicht gut genug“ abgestempelt, dann verkündet ein Engineer, man habe „einige Bugs“ gefunden, und anschließend erscheint Opus 4.7
Meine Loyalität messe ich inzwischen in Nerf-Zyklen
Denn in den Benchmarks gibt es keine Belege für eine Verschlechterung
Falls Menschen den Rückgang dennoch real wahrnehmen, würde das darauf hindeuten, dass es einen mit Benchmarks nicht erfassbaren Faktor (x-factor) gibt
Seit der v2.5-Generation gab es dort keinen Leistungsabfall, und ich vermute bei Anthropic fast, dass dort quantisierte Modellvarianten ausgetauscht werden
Bei einzelnen Anfragen mit geringer Kontextabhängigkeit ist der Leistungsabfall weniger stark
Ich habe Gemini 3 Pro in Cursor verwendet, und es ist deutlich schwächer als Sonnet 4.5
Es gab Probleme, die nur Claude Code lösen konnte, und Sonnet 4.5 funktioniert besonders gut innerhalb von Cursor
Ich halte es für die richtige Entscheidung, dass Anthropic eine auf Software Engineering fokussierte Strategie gewählt hat
Für 2026 ist es für mich das spannendste Modell
str_replace_editorCursor hat solche Tools nicht, weshalb Leistungsunterschiede entstehen
Der zugehörige Tweet ist hier
Opus/Sonnet/GPT sind für agentische Workflows deutlich besser geeignet
Azure GPT-4.1, Bedrock Sonnet 4 und Perplexity waren deutlich stabiler
Mich interessieren die Erfahrungen anderer
serialize()-JSON gegeben und es URLs extrahieren lassen, woraufhin es einen YouTube-Link von Rick Astley zurückgabDie Claude-Opus-4.5-System-Card ist deutlich ausführlicher als der Marketing-Blog
Es handelt sich um ein 150-seitiges PDF, besonders interessant ist der Abschnitt über Täuschung (deception)
Dort gibt es zum Beispiel einen Fall, in dem das Modell Nachrichten über die Auflösung von Anthropics Sicherheitsteam erhält und diese Information dem Nutzer dennoch vorenthält
Auch CBRN-bezogene Risiken werden behandelt, Opus liegt aber noch auf ASL-3-Niveau, also ohne großskaliges Risiko
Ich habe dazu hier eine Blog-Zusammenfassung veröffentlicht
Ich freue mich wirklich über diese Benchmark-Ergebnisse
Dadurch kann ich meinen bestehenden Coding Agent weiterverwenden
In der schnelllebigen AI-Landschaft wurde es immer schwerer, ohne FOMO mitzuhalten, aber diesmal hat Anthropic seine Wettbewerbsfähigkeit erneut bewiesen
Die Kombination aus Sonnet und Claude Code war bereits stabil genug, und seit 4.5 ist sie automatisch noch besser geworden
Der Versuchung, zu Codex zu wechseln, widerstehe ich einfach
Selbst wenn Claude etwas besseren Code erzeugt, ermöglicht GPT unbegrenzte Anfragen, was mehr Freiheit beim Experimentieren bietet
Opus ist ein sinnvoller Fortschritt, aber vermutlich keine grundlegende Veränderung des Workflows
Hoffentlich schlägt sich das Unternehmen weiterhin gut im Wettbewerb
Codex nutze ich nur noch vorübergehend, wenn ich an Limits stoße
Besonders beeindruckend fand ich die fortgeschrittenen Tool-Fähigkeiten von Opus 4.5
Laut dem Dokument Advanced Tool Use sind Tool-Suche, programmatische Aufrufe und Lernen anhand von In-Context-Beispielen möglich
Allein für die Tool-Definitionen wurden angeblich 130.000 Tokens verwendet, was erstaunlich ist
Auch das Demo-Video zum Puzzle-Spiel war interessant
Ich habe Simon Willisons Opus-Review gelesen
Bei den meisten Aufgaben ist die Lücke im Tooling größer als die zwischen den Modellen
There model→Their modelWenn man sich das ARC-AGI-2-Leaderboard ansieht, wird der Vergleich von Kosten und Leistung zwischen den Modellen deutlich
Opus 4.5 zeigt im Vergleich zu Gemini 3 hervorragende Ergebnisse, Gemini 3 Deep Think liegt zwar weiterhin auf Platz 1, kostet aber mehr als das 30-Fache
Als OpenAI im Dezember 2024 die menschliche Leistung bei ARC-AGI-1 übertraf, lagen die Kosten noch bei $3.000 pro Aufgabe, inzwischen sind es nur noch ein paar Dollar, also eine Verbesserung um das 80-Fache
Siehe Leaderboard und den zugehörigen Blog
Mit denselben Tool-Zugriffsrechten wäre der Abstand zwischen beiden Modellen kleiner
In letzter Zeit wirkt es so, als habe sich das Tempo der LLM-Verbesserungen verlangsamt
Die Fortschritte bei der Genauigkeit sind gering, aber die Verbesserungen bei der Effizienz sind aus meiner Sicht erheblich
In letzter Zeit wirkt Sonnet 4.5 irgendwie dümmer
Es konnte nicht einmal einfaches CSS sauber verarbeiten
Dass Opus dreimal günstiger geworden ist, ist gut, aber im Claude-Code-Pro-Abo ist es noch immer nicht nutzbar
Mit dem Befehl
/model opusplankann man Opus in der Planungsphase verwenden, aber die Credit-Nutzung ist dabei intransparentEine einfache CSS-Korrektur hat $0.95 gekostet, das ist zu teuer
Künftig werde ich wohl manuell zwischen Opus und Sonnet wechseln
Zu Spitzenzeiten ist ein Leistungsabfall wohl unvermeidlich, daher wäre eine Load-Signal-Funktion wünschenswert
Vielleicht wurde sie absichtlich reduziert, um das neue Modell zu bewerben, oder durch mehr Last infolge verteilter Gratis-Credits läuft nun eine quantisierte Version
Die Intransparenz und Instabilität bei Anthropic sind bedauerlich
Zuerst hielt ich es für einen simplen vorübergehenden Fehler, aber es fühlt sich an, als hätte sich etwas verändert