- Anthropics neuestes Sonnet-Modell verbessert die Leistung in allen Bereichen, darunter Code-Erstellung, Computernutzung, langfristiges Schlussfolgern, agentische Planung, Wissensarbeit und Design
- Unterstützt ein Kontextfenster von 1M Tokens und verbessert gegenüber Sonnet 4.5 Konsistenz, Befolgung von Anweisungen und Code-Qualität deutlich
- Bietet Intelligenz auf Opus-4.5-Niveau zu geringeren Kosten und zeigt bei realen Arbeitsaufgaben, Dokumentenverständnis und Frontend-Design Ergebnisse auf menschlichem Niveau
- Im OSWorld-Benchmark wurde die Fähigkeit zur Computernutzung kontinuierlich verbessert, auch die Abwehr von Prompt-Injection wurde verstärkt
- Der Kernpunkt ist, dass Entwickler und Unternehmen nun Frontier-Niveau bei Schlussfolgerung und Code-Qualität ohne hochpreisige Modelle nutzen können
Überblick über Claude Sonnet 4.6
- Sonnet 4.6 ist das leistungsstärkste Modell der Sonnet-Serie von Anthropic und erhält Upgrades bei Coding, Computernutzung, langfristigem Schlussfolgern, Wissensarbeit, Design und weiteren allgemeinen Fähigkeiten
- Unterstützt ein Kontextfenster von 1M Tokens (Beta), sodass große Codebasen oder lange Dokumente in einem Durchgang verarbeitet werden können
- Für Nutzer der Free- und Pro-Tarife wird es als Standardmodell eingesetzt, der Preis bleibt wie bei Sonnet 4.5 bei $3/$15 pro 1 Million Tokens
- Frühe Nutzer bevorzugten Sonnet 4.6 deutlich gegenüber Sonnet 4.5, einige sogar gegenüber Opus 4.5
- Laut Sicherheitsbewertung ist es sicherer oder auf gleich gutem Niveau wie frühere Modelle und wurde als Modell mit einem „warmen, ehrlichen und prosozialen Charakter“ bewertet
Fähigkeit zur Computernutzung
- Sonnet 4.6 hat sich zu einem Modell entwickelt, das Computer wie ein Mensch bedienen kann
- Es wird anhand des OSWorld-Benchmarks bewertet, wobei reale Software wie Chrome, LibreOffice und VS Code in einer virtuellen Umgebung bedient wird
- Durch kontinuierliche Leistungssteigerungen über 16 Monate hinweg wurde bei komplexer Spreadsheet-Navigation und dem Ausfüllen mehrstufiger Webformulare eine Fähigkeit auf menschlichem Niveau bestätigt
- Es liegt weiterhin unter den besten hochqualifizierten Menschen, doch die Geschwindigkeit der Effizienzsteigerung bei Aufgaben ist sehr hoch
- Die Abwehr gegen Prompt-Injection-Angriffe wurde gegenüber Sonnet 4.5 stark verbessert und erreicht ein Sicherheitsniveau ähnlich wie Opus 4.6
Leistungsbewertung und Benchmarks
- Sonnet 4.6 bietet Intelligenz auf Opus-Niveau zu geringeren Kosten und verbessert sich insgesamt in verschiedenen Benchmarks
- In Claude-Code-Tests bevorzugten 70 % der Nutzer Sonnet 4.6; verbessert wurden Kontextverständnis und die Fähigkeit, Redundanzen bei Code-Änderungen zu minimieren
- 59 % Präferenz gegenüber Opus 4.5, weniger übermäßiges Design oder Trägheit, genauere Ausführung von Anweisungen
- In der Vending-Bench Arena setzte es sich in einer langfristigen Management-Simulation mit einer Strategie durch, die nach anfänglicher Investition auf spätere Gewinne konzentriert war
- Bei OfficeQA zeigt es ein Dokumentenverständnis auf dem Niveau von Opus 4.6, im Financial Services Benchmark stieg die Übereinstimmungsrate der Antworten
- 94 % Genauigkeit im Versicherungs-Benchmark, im Box-Test um 15 % verbesserte Leistung bei tiefem Schlussfolgern
- Im Rakuten-AI-Test erreichte es Spitzenwerte bei der iOS-Codegenerierung sowie Verbesserungen bei moderner Tooling-Nutzung und Architekturqualität
Produkt- und Plattform-Updates
- Auf der Claude Developer Platform werden adaptive thinking, extended thinking und context compaction (Beta) unterstützt
- Älterer Kontext wird automatisch zusammengefasst, wodurch sich die effektive Kontextlänge erhöht
- Updates für API-Tools:
- web search und fetch schreiben und führen automatisch Code aus, um Suchergebnisse zu filtern
- Funktionen wie code execution, memory, programmatic tool calling und tool search sind allgemein verfügbar
- Das Add-in Claude in Excel unterstützt MCP connectors und kann mit externen Daten von S&P Global, LSEG, PitchBook und anderen verbunden werden
- Sonnet 4.6 hält seine hohe Leistung auch ohne extended thinking, Nutzern von Sonnet 4.5 wird eine Migration empfohlen
- Opus 4.6 eignet sich weiterhin für Aufgaben, die das tiefste Schlussfolgern erfordern, etwa Code-Refactoring oder die Koordination mehrerer Agenten
Verfügbare Zugangswege
- Sonnet 4.6 ist in allen Claude-Tarifen, Claude Cowork, Claude Code, der API und auf wichtigen Cloud-Plattformen verfügbar
- Auch der Free-Tarif wurde auf Sonnet 4.6 aktualisiert und umfasst Dateierstellung, Connectors, Skills und Compaction-Funktionen
- Entwickler können es unter dem Modellnamen
claude-sonnet-4-6 sofort über die Claude API verwenden
Wichtige Kennzahlen und Bewertungsmetriken (Zusammenfassung der Fußnoten)
- OSWorld: Bewertet Computeraufgaben auf Basis realer Software, Sonnet 4.6 wurde im Zustand „thinking off“ gemessen
- SWE-bench Verified: Durchschnittlich 80,2 % über 10 Durchläufe
- ARC-AGI-2: 60,4 % im Modus mit maximalem Aufwand
- MMMU-Pro: Punktzahl nach Verbesserung der Bewertungsmethode angepasst
- In verschiedenen Tests wie Humanity’s Last Exam und BrowseComp wurde mit aktivierter Tool-Nutzung, Websuche und Kontextkomprimierung getestet
1 Kommentare
Hacker-News-Kommentare
Es ist beeindruckend, dass der Fokus auf der Computernutzung liegt. Offenbar wurde das als besonders wertvoll eingeschätzt. Aber bei der Sicherheit bleiben weiter Fragen offen. Laut ihrer eigenen Bewertung war ein automatisiertes Angriffssystem mit 8 % Wahrscheinlichkeit bereits beim ersten Versuch erfolgreich und bei unbegrenzten Versuchen lag die Erfolgsquote bei bis zu 50 %. Solche Zahlen sind schwer hinzunehmen. Falls ich da nichts missverstehe, ist das auf diesem Niveau nicht praxisfähig
PDF zur Sicherheitsbewertung
Ich habe rund 900 Gedichte aus meiner privaten Sammlung in Sonnet 4.6 getestet, und im Vergleich zu Opus 4.6 gibt es einen großen Unterschied. Opus 4.6 zeigte erstaunliche Analysen, während Sonnet 4.6 weiterhin häufig halluziniert und Fehler macht. In Coding-Tests hatte ich einen ähnlichen Eindruck. Gegenüber Opus fällt es deutlich ab
Sonnet 4.6 scheitert weiterhin an dem „Car-Wash-Problem“. Ich habe die Originalfrage unverändert eingegeben, und die Antwort war: „Geh zu Fuß.“ Auch mit mehreren Varianten zeigte sich ein ähnliches Scheitern
Man merkt wieder, dass „Wettbewerb gut für Verbraucher ist“. Je härter der Marktwettbewerb, desto besser werden die Ergebnisse
Der Test mit dem „Helikopter-Car-Wash“ war großartig. Sonnet 4.6 antwortete mit „Geh zu Fuß“, und das war lustig, weil es fast wie eine Satire auf die amerikanische Gewohnheit wirkt, selbst kurze Strecken mit dem Auto zu fahren
Es überrascht, dass Sonnet 4.6 ein Leistungsniveau auf Höhe von Opus 4.5 hat. Das Entwicklungstempo erinnert an die Leistungssteigerungen im Computing der 1990er Jahre
Der Preis von Sonnet 4.5 liegt bei $3/$15 per million tokens, und ich frage mich, wie viele Leute bereit sind, das zu zahlen. Open-Weight-Modelle holen schnell auf und sind deutlich günstiger
Ich war damit beschäftigt, Unterstützung für Opus/Sonnet 4.6 im Plugin llm.datasette.io hinzuzufügen, deshalb habe ich das Pelikan-Bild erst später erstellt. Das Ergebnis liegt auf Opus-4.5-Niveau und zeigt eine Version mit elegantem Zylinder
Zugehöriger Blogpost
Ich habe in den letzten Tagen mit Sonnet 4.5 getestet, und die Gespräche waren ungewöhnlich interessant und konsistent.
In den persönlichen Einstellungen hatte ich „objektive Fakten und kritische Analyse priorisieren, keine emotionale Empathie“ eingetragen, und das wurde tatsächlich sehr gut befolgt. ChatGPT reagiert ähnlich
Mehrere Nutzer berichten, dass Opus 4.6 5- bis 10-mal mehr Tokens verbraucht als 4.5. Issue-Link. Eine offizielle Antwort gibt es noch nicht. Deshalb will ich vorerst bei 4.5 bleiben
/modelskann man das Reasoning Level überprüfen. Wenn es auf high steht, steigt der Token-Verbrauch stark an