Claude Sonnet 5 vorgestellt
(anthropic.com)- Anthropic bringt am 30. Juni 2026 Claude Sonnet 5 heraus und will agentische Ausführungsfähigkeiten nahe an teurere Opus-Klasse-Modelle zu Sonnet-Klasse-Kosten anbieten
- Gegenüber Sonnet 4.6 wurden Schlussfolgern, Tool-Nutzung, Coding und Wissensarbeit verbessert, und mit der effort-Steuerung lässt sich das Gleichgewicht zwischen Kosten und Leistung je nach Aufgabe feiner wählen
- In den Sicherheitsbewertungen lagen unerwünschtes Verhalten, Halluzinationen, Schmeichelei, die Annahme bösartiger Anfragen und die Anfälligkeit für Prompt-Injection-Hijacking unter Sonnet 4.6, einige Fehlanpassungsverhalten waren jedoch höher als bei Opus 4.8 und Claude Mythos Preview
- In Free und Pro wird es als Standardmodell bereitgestellt und ist auch in Max, Team, Enterprise, Claude Code und Claude Platform verfügbar; der API-Modellname ist
claude-sonnet-5 - Der Preis auf der Claude Platform beträgt bis zum 31. August 2026 2 $ pro 1 Million Eingabetokens und 10 $ pro 1 Million Ausgabetokens; danach 3 $ für Eingabe und 15 $ für Ausgabe, und mit dem neuen Tokenizer kann dieselbe Eingabe je nach Inhaltstyp etwa dem 1,0- bis 1,35-Fachen an Tokens entsprechen
Größerer agentischer Ausführungsumfang in der Sonnet-Klasse
- Claude Sonnet 5 wurde als bisher am stärksten agentisch ausgelegtes Sonnet-Modell konzipiert und zielt auf ein Maß an autonomer Ausführung, für das vor einigen Monaten noch größere und teurere Modelle nötig gewesen wären
- Planung, Tool-Nutzung wie Browser und Terminal sowie autonome Ausführung wurden so verbessert, dass sie von einem Modell der Sonnet-Klasse bewältigt werden können
- Sonnet 3.5, 3.6 und 3.7 etablierten sich bei Entwicklern als frühe Sonnet-Klasse-Modelle mit Fähigkeiten für Coding und Tool-Nutzung, während die deutlichsten Fortschritte bei agentischen Fähigkeiten danach bei Modellen der Opus-Klasse zu sehen waren
- Sonnet 5 verringert den Abstand zu Opus 4.8 und bietet in einer niedrigeren Preisklasse eine Leistung nahe an Opus 4.8
Leistungsbewertung und effort-Steuerung
- Sonnet 5 verbessert sich gegenüber Sonnet 4.6 deutlich in agentischen Leistungskategorien wie Schlussfolgern, Tool-Nutzung, Coding und Wissensarbeit
- In der Agentic-Search-Bewertung BrowseComp und in der Computer-Use-Bewertung OSWorld-Verified zeigte es durchgängig bessere Ergebnisse als Sonnet 4.6
- Im Vergleich nach effort-Stufen bietet Sonnet 5 eine größere Kosten-Leistungs-Auswahl als Opus 4.8
- Bei mittlerem effort verbessert sich die Kosteneffizienz deutlich
- Bei hohem effort kann die Leistung bei einigen Aufgaben an Opus 4.8 heranreichen
- Nutzer können zwischen Sonnet 5 und Opus 4.8 das effort-Niveau anpassen, um für ihr Projekt die passende Balance aus Kosten und Leistung zu wählen
Arbeitsweise in frühen Anwendungsfällen
- Partner mit frühem Zugang bewerteten Sonnet 5 als deutlich stärker agentisch als frühere Sonnet-Modelle
- Es gab Fälle, in denen komplexe Aufgaben, bei denen frühere Sonnet-Modelle unterwegs stoppten, bis zum Ende ausgeführt wurden, und Ergebnisse auch ohne ausdrückliche Aufforderung selbst überprüft wurden
- Die bestätigten Workflows umfassten sowohl Coding- als auch Nicht-Coding-Aufgaben
- Bei mehrstufigen Software-Engineering-Aufgaben bewältigt es fortlaufendes Coding, Tool-Nutzung und Debugging
- Es schloss eine zweistufige Aufgabe vollständig ab, bestehend aus der Aktualisierung von Salesforce-Kontostufen und dem Versand von Launch-Mitteilungen an Enterprise-Kontakte
- Es bearbeitete selbstständig mehrere Dutzend reale pull requests bis hin zu getesteten und verifizierten Ergebnissen
- Bei der Bug-Untersuchung führte es Reproduktionstests schreiben, Fixes implementieren, Änderungen stashen und die Rückkehr des Bugs prüfen in einem Durchgang aus
- In Brownfield-Code zeigte es Stärken beim Nachverfolgen von Race Conditions, hidden tests und der tatsächlichen Grundursache von Fehlern
- Auch bei Nicht-Coding-Aufgaben wie juristischer Recherche und Analyse, der Erkundung von Live-Daten in ClickHouse und Versicherungs-Workflows von Pace wurden Verbesserungen bei Leistung und Geschwindigkeit beobachtet
Sicherheitsbewertungen und Cybersecurity-Beschränkungen
- In den Sicherheitsbewertungen vor der Bereitstellung verbesserte sich Sonnet 5 insgesamt bei der Sicherheit gegenüber Sonnet 4.6
- Im Bereich agentischer Sicherheit verbesserte sich sowohl die Ablehnung bösartiger Anfragen als auch die Widerstandsfähigkeit gegen Hijacking-Versuche durch Prompt-Injection-Angriffe
- Gegenüber Sonnet 4.6 waren die Raten von Halluzinationen und Schmeichelei geringer, und auch in automatisierten Verhaltensaudits zur Prüfung von Fehlanpassungsverhalten wie Missbrauchskooperation und Täuschung lagen die Werte niedriger, also sicherer
- Verglichen mit dem leistungsstärkeren Opus 4.8 und Claude Mythos Preview lag die Rate einiger Fehlanpassungsverhalten in dieser Bewertung jedoch etwas höher
- Sonnet 5 wurde nicht gezielt für Cybersecurity-Aufgaben trainiert
- Einige alltägliche und harmlose Cyber-Aufgaben kann es ausführen
- In Bewertungen potenziell gefährlicher Cyber-Fähigkeiten wie der Entwicklung von Software-Exploits lag seine Leistung deutlich unter Opus 4.8 und Mythos 5
- In einer Bewertung zur Entwicklung eines Exploits für eine Firefox-Browser-Schwachstelle konnte es keinen vollständig funktionierenden Exploit erstellen, die Teil-Erfolgsrate lag jedoch leicht über Sonnet 4.6
- Da es bei diesen Aufgaben etwas stärker ist als frühere Modelle, wird es mit standardmäßig aktivierten Cyber-Schutzmechanismen veröffentlicht
- Diese erkennen und blockieren gefährliche Cyber-Nutzung in Echtzeit
- Es sind dieselben Schutzmechanismen wie bei Claude Opus 4.7 und 4.8
- Das gesamte Cybersecurity-Risikoprofil von Sonnet 5 wird als niedrig eingeschätzt, weshalb die Mechanismen weniger strikt sind als die Fable-5-Schutzmechanismen, die ein breiteres Spektrum an Cybersecurity-Aufgaben blockieren
- Die vollständige Bewertung ist in der Claude Sonnet 5 System Card zu finden
Verfügbarkeit, Preise und API
- Claude Sonnet 5 ist in allen Tarifen verfügbar
- Es ist das Standardmodell in den Tarifen Free und Pro
- Nutzer von Max, Team und Enterprise können es verwenden
- Es ist auch in Claude Code und Claude Platform verfügbar
- Entwickler können in der Claude API
claude-sonnet-5verwenden - Der Einführungspreis auf der Claude Platform beträgt bis zum 31. August 2026 2 $ pro 1 Million Eingabetokens und 10 $ pro 1 Million Ausgabetokens
- Danach ändern sich die Standardpreise auf 3 $ pro 1 Million Eingabetokens und 15 $ pro 1 Million Ausgabetokens
- Um den höheren Tokenverbrauch bei hohen effort-Stufen aufzufangen, werden die Anfragelimits über Chat, Cowork, Claude Code und Claude Platform hinweg erhöht
- Sonnet 5 ist ein Upgrade von Sonnet 4.6, verwendet jedoch einen aktualisierten Tokenizer
- Zur Leistungsverbesserung wurde die Textverarbeitung geändert
- Dieselbe Eingabe kann je nach Inhaltstyp auf etwa das 1,0- bis 1,35-Fache an Tokens abgebildet werden
- Der Einführungspreis wurde so festgelegt, dass der Wechsel zu Sonnet 5 im Allgemeinen kostenneutral bleibt
Update des BrowseComp-Diagramms
- In einer Bearbeitung vom 30. Juni 2026 wurde das Kosten-Leistungs-Diagramm der BrowseComp-Bewertung aktualisiert
- Das ursprüngliche Diagramm basierte auf Daten aus einer einfacheren Methodik, die nicht die Standardmethodik widerspiegelt, die Anthropic für die Agentic-Search-Bewertung verwendet, wodurch die Leistung von Sonnet 5 unterschätzt wurde
- Das aktualisierte Diagramm wurde an die Standardmethodik sowie an die in der Sonnet-5-System-Card verwendete und diskutierte Vorgehensweise angepasst
- Diese Vorgehensweise verwendet ein Budget von 10M Tokens, Komprimierung und programmatische Tool-Aufrufe
- Auch die begleitenden Beschreibungstexte wurden aktualisiert
4 Kommentare
Vielleicht liegt es daran, dass ich mich an Opus 4.8 gewöhnt habe, oder daran, dass ich Sonnet eine Weile nicht benutzt habe ...
Ich habe heute kurz Sonnet verwendet und war sehr enttäuscht.
Früher wäre ich vielleicht völlig zufrieden gewesen, aber es gab deutlich mehr Halluzinationen, als ich erwartet hatte.
Gib mir einfach fable..
Gebt mir schnell Fable ... 😢😢
Meinungen auf Hacker News
Wenn man sich das Kostendiagramm pro Aufgabe ansieht, sollte man Sonnet 5 wohl nicht oberhalb eines mittleren Effort-Levels verwenden. Bei gleichen Kosten ist Opus immer besser; wenn Sonnet 5 auf mittlerem Niveau nicht ausreicht, scheint die Konsequenz nicht zu sein, das Effort-Level zu erhöhen, sondern das Modell zu wechseln.
In der Praxis nutze ich meist einfach die Standardeinstellungen von Claude Code, und das funktioniert gut genug. Mich interessiert aber, wie stark andere Nutzer mit solchen Einstellungen experimentieren und sie auf ihre Projekte hin optimieren.
Außerdem ist bei manchen Aufgaben schlicht die Menge der Eingabe-Tokens selbst der wichtigste Faktor. Multimodale Computer-Use-Aufgaben lassen sich zum Beispiel nicht effizienter machen, indem man bei Opus das Reasoning senkt; dafür ist ein günstigeres Modell wie Sonnet nützlich.
In der Praxis verbringe ich allerdings so viel Zeit damit, die vom Modell erzeugten Ergebnisse zu korrigieren, dass ein langsameres, aber intelligenteres Modell meiner Ansicht nach die Gesamtzeit reduziert.
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Ich habe es mit meinem Benchmark[0] getestet: Es liegt auf GLM-5.2-Niveau, kostet doppelt so viel, ist aber auch doppelt so schnell.
Die Schwächen: Bei Allgemeinwissens-Quizfragen 0/3, also kaum eingebautes Wissen; bei komplexen Tool-Calling-Aufgaben 45/100, mit gelegentlich falschen Tool-Aufrufen; beim Lösen von Rätseln 77 Punkte, mit Fehlern bei Tests vom Typ Autowaschanlage.
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Sonnet 5 dagegen war unter den Claude-Modellen, die ich ausprobiert habe, deutlich fauler; es fügte eine angeforderte Ergänzung zum Plan nicht hinzu und log anschließend, als ich nachfragte, es habe sie erledigt. Nach der Analyse[0] sieht es für mich wertlos aus; bei anderen kann das anders sein. Fable war definitiv deutlich besser.
[0]: https://artificialanalysis.ai/models/claude-sonnet-5
Bei mehreren Benchmarks übersteigen die Kosten pro Aufgabe ab einem Effort-Level über „medium“ die von Opus. Ich verstehe daher schwer, warum man das verwenden sollte, statt einfach Opus mit niedrigem Effort-Level zu nutzen.
Mir fällt nur der Fall ein, dass die Opus-Credits aufgebraucht sind. Natürlich gibt es Anwendungsfälle mit API-Abrechnung, aber selbst dann würde ich wohl Opus mit niedrigem Effort-Level verwenden.
Es wirkt, als würden die Modelle eher darauf optimiert, den Nutzern und dem Unternehmen mehr Geld zu entlocken, als Probleme zu lösen. Ich weiß nicht, warum Opus bei einer klar angewiesenen einfachen Python-Aufgabe von zwei bis drei Zeilen versucht, eine ganze Bibliothek zu bauen.
Wenn man aber an realen Problemen iteriert und exploriert, wächst die Kontextlänge immer weiter, und dann wird Opus oft teuer.
[0] https://www.anthropic.com/claude-sonnet-5-system-card
Claude Sonnet 5 soll der bislang agentenartigste Sonnet sein. Es plant, nutzt Tools wie Browser oder Terminal und kann auf einem Niveau autonom handeln, für das vor ein paar Monaten noch größere und teurere Modelle nötig gewesen wären.
Ich betreibe eher agentenunterstützte Entwicklung als vollständig agentengesteuerte Entwicklung und habe deshalb häufiger Sonnet 4.6 als Opus genutzt. Diese Ankündigung fühlt sich für mich aber nicht positiv an. Je stärker ein Modell für vollständig agentenartige Entwicklung optimiert wird, desto schlechter wurde es oft für unterstützende Entwicklung, und selbst bei sehr strengen, konkreten Anweisungen neigte es dazu, zu viel loszutreten.
In den letzten Wochen wechsle ich zunehmend zu K2.7 Code und GLM-5.2. Für unterstützende Zwecke reichen sie oft aus und sind sehr schnell und günstig.
Das Problem ist, dass die Leute in diesen Unternehmen offenbar glauben, dass in ein bis zwei Jahren niemand mehr so arbeiten wird.
Ich muss etwas mehr nachbessern als bei Opus. Der eigentliche Maßstab liegt aber zwischen „ich muss jede Zeile lesen“ und „ich kann es vertrauen, ohne jede Zeile zu lesen“, und für mich hat kein Modell Letzteres erreicht; das wird wohl noch eine Weile so bleiben. Beim Brainstorming von Architekturen und deren Umsetzung in Code ist es nicht so gut wie Opus, aber dieses Problem habe ich nicht immer, und wenn nötig, nutze ich eben Opus.
Dadurch komme ich auch in Wochen mit viel Coding die ganze Woche bequem durch, ohne schon am Mittwoch oder Donnerstag ans Ausgabenlimit zu stoßen. Allerdings habe ich in der Praxis das Gefühl, K2.6 deutlich stärker bremsen zu müssen als Opus. Wenn ich nur eine Frage stellen will, muss ich viel vorsichtiger sein, damit es nicht sofort daraus schließt, es solle mit einer Coding-Aufgabe losrennen. Ich nutze beide im Planungsmodus, aber bei K2.6 muss ich defensiver vorgehen als bei Opus.
Der Großteil meiner Arbeit ist eher agentenartige Engineering-Arbeit als „anwerfen und vergessen“. Ich bleibe auch in der Planungsphase beteiligt, prüfe die Ergebnisse und stelle dem Agenten deutlich mehr Fragen als andere Leute. Für mich funktioniert es am besten, wenn ich Anforderungen, Umfang, Design und manchmal sogar konkrete Modulgrenzen festlege und es dann im Modus „superstarkes Autocomplete“ die Lücken füllen lasse.
Auch das Preis-Leistungs-Verhältnis wirkt schlechter als bei GLM 5.2. Und das, obwohl GLM 5.2 „nur“ 744B Parameter hat.
In der System Card steht: „Bei der Suche nach CyberGym-Schwachstellen ist Claude Sonnet 5 weniger fähig als Sonnet 4.6 und deutlich weniger fähig als Opus 4.8 und Mythos 5.“
Außerdem heißt es: „Wie bei den anderen Bewertungen in diesem Abschnitt wurden diese Ergebnisse mit deaktivierten Schutzmaßnahmen erzielt. Mit aktivierten Standard-Mitigationsmaßnahmen erreichte Sonnet 5 bei CyberGym 0 Punkte.“
Beim Planen und Coden war es ähnlich. GLM-5.2 sieht „auf dem Papier“ gut aus, aber die Ergebnisse im echten Einsatz waren anders.
Ich will weder Claude noch GLM-5.2 verteidigen. Was ich seit November 2022 durch tägliche Nutzung großer Sprachmodelle gelernt habe: Allgemeine Tests muss man am eigenen Projekt überprüfen. Es gibt kein „ein Modell, sie alle zu beherrschen“; man muss in einem Heuhaufen aus Tausenden Modellen das passende finden.
Benchmarks sind hilfreich, fühlen sich aber zunehmend wie die Verbrauchsangaben in Autowerbung an. Der tatsächliche Verbrauch ist bei jedem anders.
Nach dem Muster: „Modell X ist in Benchmark T um Y % besser oder schlechter als Claude Z“, „das ist bedeutungslos, es ist auf Benchmarks optimiert“, „für Alltags-Coding oder Agentenarbeit ist es unbrauchbar, es fühlt sich völlig falsch an“, „es ist fast genauso gut und viel günstiger, also nutze ich es auf jeden Fall“, „wegen der stufenweisen Leistungsunterschiede rechtfertigen die niedrigen Kosten offener Modelle den Produktivitätsverlust nicht“.
Ich bin ein mit Anthropic unzufriedener Kunde und feuere offene Modelle und nicht abgeschottete Intelligenz wirklich an. Aber ich weiß nicht, wie man aus dieser inzwischen memartigen Wiederholung der Model-Launch-Debatte herauskommen soll. Ich entwerfe selbst keine großen Sprachmodelle oder Benchmarks und schätze den Versuch, Informationen bereitzustellen, auch wenn er nicht perfekt ist, wirklich. Ich vermute, die meisten, die solche Ankündigungskommentare regelmäßig lesen, empfinden ähnlich.
Claude Sonnet 5 beschrieb seinen eigenen Pelikan als Gans.
„Eine weiße Gans fährt Fahrrad, streckt einen Flügel nach vorn, um den Lenker zu halten, vor schlichtem weißem Hintergrund mit brauner Bodenlinie.“
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
GLM 5.2 hingegen zeichnete einen schönen, eigenständig funktionierenden, vollständig animierten SVG-Pelikan.
https://simonwillison.net/2026/Jun/17/glm-52
Ich habe heute versehentlich ein wenig Sonnet 5 benutzt, und für Softwareentwicklung wirkte es deutlich schlechter als Opus 4.8.
Ich frage mich, ob übermäßige Paranoia in Sachen Cybersicherheit am Ende dazu führt, dass Modelle weniger sicheren Code erzeugen. Denn die Fähigkeit, sicheren Code zu schreiben, bedeutet ja, dass man etwas über Cybersicherheit weiß – und mit diesem Wissen könnte man gewissermaßen auch Banken auf der ganzen Welt hacken.
Ich hatte ziemlich hohe Erwartungen an dieses Modell und habe deshalb in drei verschiedenen Projekten die Opus-Planner gebeten, statt Opus-Subagenten Sonnet zu verwenden, um mir schneller bei Experimenten mit HPC-Kernels zu helfen. Aber kein einziges hat auch nur eine Zeile Code geschrieben; die Sonnets drehten sich nur im Kreis und verschwendeten Tokens.
Ich kann mich nicht einmal daran erinnern, wann mir so etwas mit Opus in meiner Codebase zuletzt passiert ist. Ich stelle es gerade wieder zurück.
Das verschwand von selbst.
Der wichtige Punkt ist dieser: „Sonnet 5 ist ein Upgrade von Sonnet 4.6, verwendet aber einen aktualisierten Tokenizer, der die Art ändert, wie das Modell Text verarbeitet, um Leistungssteigerungen zu erzielen. Das ähnelt der Tokenizer-Änderung, die mit Claude Opus 4.7 eingeführt wurde. Der Preis dafür ist, dass derselbe Input auf mehr Tokens abgebildet werden kann. Je nach Inhaltstyp sind es ungefähr 1,0- bis 1,35-mal so viele. Der Einführungspreis wurde so festgelegt, dass der Wechsel zu Sonnet 5 ungefähr kostenneutral bleibt.“