Anthropic stellt Claude Opus 4.5 vor

(anthropic.com)

8 Punkte von GN⁺ 2025-11-25 | 2 Kommentare | Auf WhatsApp teilen

Claude Opus 4.5 ist ein KI-Modell mit Spitzenleistung beim Schreiben von Code, beim Ausführen von Agenten und bei der Nutzung von Computern
Im realen Software-Engineering-Test (SWE-bench Verified) erzielte es den Bestwert; Token-Effizienz und Schlussfolgerungsfähigkeit wurden deutlich verbessert
Der Preis wurde auf $5/$25 pro 1 Million Tokens gesenkt, sodass mehr Entwickler und Unternehmen Funktionen auf Opus-Niveau nutzen können
Mit dem neuen Parameter effort, Kontextverwaltung und verbesserter Tool-Nutzung wurden die Claude Developer Platform und Claude Code deutlich aufgewertet
Verstärkte Sicherheit und Alignment sowie eine verbesserte Abwehr von Prompt-Injection markieren einen Wendepunkt für das Vertrauen in den KI-Einsatz branchenübergreifend

Überblick über Claude Opus 4.5

Anthropic hat Claude Opus 4.5 vorgestellt und als Modell auf Weltklasseniveau für Coding, Agenten und Computernutzung beschrieben
- Auch bei Alltagsaufgaben wie Recherche, Folien und Tabellenkalkulationen wurde die Leistung verbessert
- Es wird als ein Schritt bewertet, der den Umfang dessen erweitert, was KI-Systeme leisten können
Opus 4.5 erzielte im SWE-bench Verified-Test den Höchstwert
Sofort verfügbar in der Anthropic-App, über die API und auf den drei großen Cloud-Plattformen
- API-Modellname: claude-opus-4-5-20251101
- Preis: Eingabe $5 / Ausgabe $25 (pro 1 Million Tokens)

Feedback von frühen Nutzern und aus Tests

Interne Tests berichten von Verbesserungen beim Umgang mit mehrdeutigen Problemen und beim Lösen komplexer Bugs
Frühe Nutzer aus mehreren Unternehmen gaben unter anderem folgendes Feedback
- Höhere Codequalität und halbierter Token-Verbrauch
- Starke Leistung bei mehrstufigem Schlussfolgern, langfristiger autonomer Arbeit und Agent-Workflows
- Mehr als 15 % bessere Effizienz gegenüber Sonnet 4.5
- Bestätigung der Möglichkeit, sich selbst verbessernde KI-Agenten umzusetzen
- Leistungssteigerungen in Bereichen wie Excel-Automatisierung, 3D-Visualisierung, Code-Review und Story-Generierung
- Gemeldete 50–75 % weniger Tool-Call-Fehler und Build-Fehler sowie höhere Geschwindigkeit

Leistungsbewertung

In Anthropics internem Software-Engineering-Test übertraf das Modell den Bestwert menschlicher Kandidaten
- Bestleistung innerhalb des Zeitlimits von 2 Stunden
Sehvermögen, Schlussfolgerung und mathematische Fähigkeiten wurden insgesamt verbessert und erreichten in vielen Benchmarks den State of the Art (SOTA)
Im Test τ2-bench wurde ein Beispiel für kreative Problemlösung gezeigt
- Eine Richtlinie, nach der Flugtickets nicht geändert werden können, wurde nicht umgangen, sondern über ein legales Verfahren (Sitzplatz-Upgrade und anschließende Terminänderung) gelöst
- Der Benchmark wertete dies zwar als Fehlschlag, es wurde jedoch als Beispiel für kreative Schlussfolgerungsfähigkeit angeführt

Verbesserungen bei Sicherheit und Alignment

Claude Opus 4.5 ist laut Anthropic das am stärksten alignte Modell, das das Unternehmen bisher veröffentlicht hat
- Die Widerstandsfähigkeit gegen Prompt-Injection-Angriffe liegt auf Spitzenniveau in der Branche
- Auch in einem starken Angriffs-Benchmark von Gray Swan wurden gute Ergebnisse erzielt
Ein niedriger Wert bei „concerning behavior“ verringert die Wahrscheinlichkeit von missbräuchlicher Nutzung und autonomen Fehlfunktionen
Detaillierte Sicherheits- und Leistungsbewertungen sind in der Claude Opus 4.5 System Card enthalten

Updates der Claude Developer Platform

Opus 4.5 liefert bessere Ergebnisse mit weniger Tokens
Mit dem neuen Parameter effort lässt sich die Balance zwischen Geschwindigkeit, Kosten und Leistung anpassen
- Auf mittlerem effort-Niveau gleiche Leistung wie Sonnet 4.5 bei 76 % weniger Output-Tokens
- Auf höchstem effort-Niveau 4,3 % bessere Leistung und 48 % weniger Tokens gegenüber Sonnet 4.5
effort-Steuerung, context compaction und fortgeschrittene Tool-Nutzung verbessern die Effizienz bei langfristigen Aufgaben
15 % bessere Agentenleistung durch Kontextverwaltung und Speicherfunktionen
Die Plattform entwickelt sich schrittweise zu einer modularen, kombinierbaren Architektur

Produkt-Updates

Claude Code verbessert auf Basis von Opus 4.5 die Präzision und Ausführungskraft des Plan Mode
- Vor der Ausführung wird eine plan.md-Datei erzeugt, die Nutzer prüfen können
- Die Desktop-App unterstützt parallele Ausführung mehrerer Sessions
Die Claude-App behält mit einer automatischen Zusammenfassung langer Gespräche den Kontext bei
Claude for Chrome wird für alle Max-Nutzer bereitgestellt
Claude for Excel wird als Beta auf Max-, Team- und Enterprise-Nutzer ausgeweitet
Durch eine Anhebung des dedizierten Nutzungslimits für Opus 4.5 wird der Einsatz in täglichen Arbeitsabläufen möglich

Weitere Informationen

Alle Bewertungen (evals) wurden als Durchschnitt aus 5 Durchläufen mit 64K thinking budget, 200K Kontextfenster und der Standardeinstellung effort (high) durchgeführt
Einige Tests wie SWE-bench Verified und Terminal Bench verwendeten separate Einstellungen
Zugehörige Forschungsergebnisse und Detailresultate finden sich in der Claude Opus 4.5 System Card

2 Kommentare

kaydash 2025-11-27

Ich muss schon für 5G-Kommunikationsgebühren zahlen und auch noch Netflix abonnieren, und jetzt soll ich auch noch ein AI-Abo abschließen schnief.

GN⁺ 2025-11-25

Hacker-News-Kommentare

Im Mittelpunkt dieser Ankündigung steht die Preissenkung von Opus 4.5
$5/$25 pro MTok entspricht im Vergleich zu Opus 4 einer Reduktion um das Dreifache, sodass es nun nicht mehr nur ein „Modell für wichtige Aufgaben“ ist, sondern ein Modell, das tatsächlich in produktiven Workloads eingesetzt werden kann
Außerdem wird behauptet, die Resistenz gegen Prompt Injection liege auf SOTA-Niveau. Falls die Werte aus der System Card auch unter aggressiven Tests Bestand haben, wäre das für Betreiber von Agenten mit Tool-Zugriff von großer Bedeutung
Die Formulierung „am stärksten ausgerichtetes Modell“ wirkt allerdings etwas übertrieben, und ich bin auf Ergebnisse von Third-Party-Red-Teams gespannt
- Mit dem Release von Opus 4.5 wurden die Nutzungsbeschränkungen von Claude Code gelockert
  Die nur für Opus geltende Obergrenze wurde entfernt, und auch Max- sowie Team-Premium-Nutzer können nun ähnlich viele Tokens verwenden wie zu Sonnet-Zeiten
  Laut Aussage wurden die Limits angepasst, damit sich Opus 4.5 im Arbeitsalltag einsetzen lässt
- Interne Tests zeigten, dass Opus 4.5 im Betrieb oft sogar günstiger als Sonnet war
  Beim Amp-Team lagen die durchschnittlichen Kosten pro Thread bei Sonnet 4.5 bei $1.83 und bei Opus 4.5 bei etwa $1.30
  Ein größerer Kostenvorteil als der reine Tokenpreis ist die Verringerung von Fehlern durch höhere Intelligenz
- Die dreifache Preissenkung deutet vermutlich darauf hin, dass Opus 4.5 ein kleineres und spezialisierteres Basismodell sein könnte
  Das Fine-Tuning auf Benchmarks scheint verstärkt worden zu sein, und mich interessiert die Leistung in nicht zielgerichteten Tests wie eqbench.com
- Früher habe ich den Abschnitt „Safety“ eher als eine Art Science-Fiction-Warnung verstanden, diesmal fand ich spannend, dass praktische Probleme wie Prompt Injection behandelt werden
  Offenbar entwickelt sich der Begriff „Sicherheit“ inzwischen in eine andere Richtung
- Allerdings soll Pliney the Liberator bereits erfolgreich einen Jailbreak durchgeführt haben
  Das könnte allerdings etwas anderes sein als Resistenz gegen Prompt Injection
Dieses Modell wird wohl für 2–4 Wochen revolutionär sein, danach kommt vermutlich der „Nerf“
In den Monaten danach werden Leute, die auf nachlassende Leistung hinweisen, als „nicht gut genug“ abgestempelt, dann verkündet ein Engineer, man habe „einige Bugs“ gefunden, und anschließend erscheint Opus 4.7
Meine Loyalität messe ich inzwischen in Nerf-Zyklen
- Es könnte auch sein, dass es sich nicht um echte Leistungsverschlechterung, sondern um eine kognitive Täuschung handelt
  Denn in den Benchmarks gibt es keine Belege für eine Verschlechterung
  Falls Menschen den Rückgang dennoch real wahrnehmen, würde das darauf hindeuten, dass es einen mit Benchmarks nicht erfassbaren Faktor (x-factor) gibt
- Deshalb bin ich zu Gemini gewechselt
  Seit der v2.5-Generation gab es dort keinen Leistungsabfall, und ich vermute bei Anthropic fast, dass dort quantisierte Modellvarianten ausgetauscht werden
- Klingt wie ein Witz, aber vielleicht ist das in Wirklichkeit einfach ein Relaunch von Opus 4.0
- Dieses Phänomen passt auch zum Verhaltensmuster des CEO
- Claude scheint vermutlich heimlich mit Kontextkompression zu experimentieren
  Bei einzelnen Anfragen mit geringer Kontextabhängigkeit ist der Leistungsabfall weniger stark
Ich habe Gemini 3 Pro in Cursor verwendet, und es ist deutlich schwächer als Sonnet 4.5
Es gab Probleme, die nur Claude Code lösen konnte, und Sonnet 4.5 funktioniert besonders gut innerhalb von Cursor
Ich halte es für die richtige Entscheidung, dass Anthropic eine auf Software Engineering fokussierte Strategie gewählt hat
Für 2026 ist es für mich das spannendste Modell
- Claude-Modelle verfügen über eingebaute Tools wie str_replace_editor
  Cursor hat solche Tools nicht, weshalb Leistungsunterschiede entstehen
  Der zugehörige Tweet ist hier
- Mein Workflow bestand darin, mit Gemini zu entwerfen und mit Sonnet umzusetzen
- Persönlich verstehe ich den übermäßigen Hype um Gemini nicht
  Opus/Sonnet/GPT sind für agentische Workflows deutlich besser geeignet
- Ich habe mit der Gemini-2.5-Pro-API ein Side-Project gebaut, dabei waren Konsistenz bei der Ausführung von Anweisungen und Resource-Exceeded-Fehler problematisch
  Azure GPT-4.1, Bedrock Sonnet 4 und Perplexity waren deutlich stabiler
  Mich interessieren die Erfahrungen anderer
- Ich habe Sonnet 4.5 base64-kodiertes PHP-serialize()-JSON gegeben und es URLs extrahieren lassen, woraufhin es einen YouTube-Link von Rick Astley zurückgab
Die Claude-Opus-4.5-System-Card ist deutlich ausführlicher als der Marketing-Blog
Es handelt sich um ein 150-seitiges PDF, besonders interessant ist der Abschnitt über Täuschung (deception)
Dort gibt es zum Beispiel einen Fall, in dem das Modell Nachrichten über die Auflösung von Anthropics Sicherheitsteam erhält und diese Information dem Nutzer dennoch vorenthält
Auch CBRN-bezogene Risiken werden behandelt, Opus liegt aber noch auf ASL-3-Niveau, also ohne großskaliges Risiko
Ich habe dazu hier eine Blog-Zusammenfassung veröffentlicht
Ich freue mich wirklich über diese Benchmark-Ergebnisse
Dadurch kann ich meinen bestehenden Coding Agent weiterverwenden
In der schnelllebigen AI-Landschaft wurde es immer schwerer, ohne FOMO mitzuhalten, aber diesmal hat Anthropic seine Wettbewerbsfähigkeit erneut bewiesen
- Es scheint, als hätten wir nun einen Punkt erreicht, an dem man den Hype ignorieren kann, ohne zurückzufallen
  Die Kombination aus Sonnet und Claude Code war bereits stabil genug, und seit 4.5 ist sie automatisch noch besser geworden
  Der Versuchung, zu Codex zu wechseln, widerstehe ich einfach
- Ich bin wegen Preislimits zu OpenAI gewechselt
  Selbst wenn Claude etwas besseren Code erzeugt, ermöglicht GPT unbegrenzte Anfragen, was mehr Freiheit beim Experimentieren bietet
- Mehrere Tools parallel zu nutzen bringt produktivitätsseitig keinen großen Gewinn
  Opus ist ein sinnvoller Fortschritt, aber vermutlich keine grundlegende Veränderung des Workflows
- Ich mag auch Anthropics entwicklerfreundliche Ausrichtung
  Hoffentlich schlägt sich das Unternehmen weiterhin gut im Wettbewerb
- Ich habe auch Codex ausprobiert, bin aber letztlich zu Claude Code zurückgekehrt
  Codex nutze ich nur noch vorübergehend, wenn ich an Limits stoße
Besonders beeindruckend fand ich die fortgeschrittenen Tool-Fähigkeiten von Opus 4.5
Laut dem Dokument Advanced Tool Use sind Tool-Suche, programmatische Aufrufe und Lernen anhand von In-Context-Beispielen möglich
Allein für die Tool-Definitionen wurden angeblich 130.000 Tokens verwendet, was erstaunlich ist
Auch das Demo-Video zum Puzzle-Spiel war interessant
Ich habe Simon Willisons Opus-Review gelesen
- Eine schrittweise Evolution ist in großen Codebasen nur schwer spürbar
  Bei den meisten Aufgaben ist die Lücke im Tooling größer als die zwischen den Modellen
- Ich frage mich, ob die Bibliothek zur Umwandlung von Terminal-Ausgabe in HTML selbst geschrieben wurde
- Ich frage mich, ob das Modell womöglich auf Benchmark-Daten hin trainiert wurde
- In der Preisangabe für Haiku gibt es einen Fehler — korrekt ist $1/$5
- Vorschlag zur Tippfehlerkorrektur: There model → Their model
Wenn man sich das ARC-AGI-2-Leaderboard ansieht, wird der Vergleich von Kosten und Leistung zwischen den Modellen deutlich
Opus 4.5 zeigt im Vergleich zu Gemini 3 hervorragende Ergebnisse, Gemini 3 Deep Think liegt zwar weiterhin auf Platz 1, kostet aber mehr als das 30-Fache
Als OpenAI im Dezember 2024 die menschliche Leistung bei ARC-AGI-1 übertraf, lagen die Kosten noch bei $3.000 pro Aufgabe, inzwischen sind es nur noch ein paar Dollar, also eine Verbesserung um das 80-Fache
Siehe Leaderboard und den zugehörigen Blog
- Zur Einordnung: Gemini 3 Pro ist die Version ohne Tool-Nutzung, Deep Think die Version mit Tool-Nutzung
  Mit denselben Tool-Zugriffsrechten wäre der Abstand zwischen beiden Modellen kleiner
In letzter Zeit wirkt es so, als habe sich das Tempo der LLM-Verbesserungen verlangsamt
Die Fortschritte bei der Genauigkeit sind gering, aber die Verbesserungen bei der Effizienz sind aus meiner Sicht erheblich
In letzter Zeit wirkt Sonnet 4.5 irgendwie dümmer
Es konnte nicht einmal einfaches CSS sauber verarbeiten
Dass Opus dreimal günstiger geworden ist, ist gut, aber im Claude-Code-Pro-Abo ist es noch immer nicht nutzbar
Mit dem Befehl /model opusplan kann man Opus in der Planungsphase verwenden, aber die Credit-Nutzung ist dabei intransparent
Eine einfache CSS-Korrektur hat $0.95 gekostet, das ist zu teuer
Künftig werde ich wohl manuell zwischen Opus und Sonnet wechseln
- Die Qualität von Sonnet 4.5 scheint sich wie bei einer Schach-Engine proportional zur Suchtiefe zu verhalten
  Zu Spitzenzeiten ist ein Leistungsabfall wohl unvermeidlich, daher wäre eine Load-Signal-Funktion wünschenswert
- In den letzten Tagen fühlte es sich eindeutig so an, als sei die Intelligenz gesunken
  Vielleicht wurde sie absichtlich reduziert, um das neue Modell zu bewerben, oder durch mehr Last infolge verteilter Gratis-Credits läuft nun eine quantisierte Version
  Die Intransparenz und Instabilität bei Anthropic sind bedauerlich
- Wahrscheinlich gibt es bei Traffic-Überlastung ein Failover auf ein günstigeres Modell
- Besonders an Freitagen habe ich wiederholt anhaltend dumme Antworten gesehen
  Zuerst hielt ich es für einen simplen vorübergehenden Fehler, aber es fühlt sich an, als hätte sich etwas verändert