9 Punkte von GN⁺ 2026-02-18 | 1 Kommentare | Auf WhatsApp teilen
  • Anthropics neuestes Sonnet-Modell verbessert die Leistung in allen Bereichen, darunter Code-Erstellung, Computernutzung, langfristiges Schlussfolgern, agentische Planung, Wissensarbeit und Design
  • Unterstützt ein Kontextfenster von 1M Tokens und verbessert gegenüber Sonnet 4.5 Konsistenz, Befolgung von Anweisungen und Code-Qualität deutlich
  • Bietet Intelligenz auf Opus-4.5-Niveau zu geringeren Kosten und zeigt bei realen Arbeitsaufgaben, Dokumentenverständnis und Frontend-Design Ergebnisse auf menschlichem Niveau
  • Im OSWorld-Benchmark wurde die Fähigkeit zur Computernutzung kontinuierlich verbessert, auch die Abwehr von Prompt-Injection wurde verstärkt
  • Der Kernpunkt ist, dass Entwickler und Unternehmen nun Frontier-Niveau bei Schlussfolgerung und Code-Qualität ohne hochpreisige Modelle nutzen können

Überblick über Claude Sonnet 4.6

  • Sonnet 4.6 ist das leistungsstärkste Modell der Sonnet-Serie von Anthropic und erhält Upgrades bei Coding, Computernutzung, langfristigem Schlussfolgern, Wissensarbeit, Design und weiteren allgemeinen Fähigkeiten
    • Unterstützt ein Kontextfenster von 1M Tokens (Beta), sodass große Codebasen oder lange Dokumente in einem Durchgang verarbeitet werden können
  • Für Nutzer der Free- und Pro-Tarife wird es als Standardmodell eingesetzt, der Preis bleibt wie bei Sonnet 4.5 bei $3/$15 pro 1 Million Tokens
  • Frühe Nutzer bevorzugten Sonnet 4.6 deutlich gegenüber Sonnet 4.5, einige sogar gegenüber Opus 4.5
  • Laut Sicherheitsbewertung ist es sicherer oder auf gleich gutem Niveau wie frühere Modelle und wurde als Modell mit einem „warmen, ehrlichen und prosozialen Charakter“ bewertet

Fähigkeit zur Computernutzung

  • Sonnet 4.6 hat sich zu einem Modell entwickelt, das Computer wie ein Mensch bedienen kann
    • Es wird anhand des OSWorld-Benchmarks bewertet, wobei reale Software wie Chrome, LibreOffice und VS Code in einer virtuellen Umgebung bedient wird
  • Durch kontinuierliche Leistungssteigerungen über 16 Monate hinweg wurde bei komplexer Spreadsheet-Navigation und dem Ausfüllen mehrstufiger Webformulare eine Fähigkeit auf menschlichem Niveau bestätigt
  • Es liegt weiterhin unter den besten hochqualifizierten Menschen, doch die Geschwindigkeit der Effizienzsteigerung bei Aufgaben ist sehr hoch
  • Die Abwehr gegen Prompt-Injection-Angriffe wurde gegenüber Sonnet 4.5 stark verbessert und erreicht ein Sicherheitsniveau ähnlich wie Opus 4.6

Leistungsbewertung und Benchmarks

  • Sonnet 4.6 bietet Intelligenz auf Opus-Niveau zu geringeren Kosten und verbessert sich insgesamt in verschiedenen Benchmarks
    • In Claude-Code-Tests bevorzugten 70 % der Nutzer Sonnet 4.6; verbessert wurden Kontextverständnis und die Fähigkeit, Redundanzen bei Code-Änderungen zu minimieren
    • 59 % Präferenz gegenüber Opus 4.5, weniger übermäßiges Design oder Trägheit, genauere Ausführung von Anweisungen
  • In der Vending-Bench Arena setzte es sich in einer langfristigen Management-Simulation mit einer Strategie durch, die nach anfänglicher Investition auf spätere Gewinne konzentriert war
  • Bei OfficeQA zeigt es ein Dokumentenverständnis auf dem Niveau von Opus 4.6, im Financial Services Benchmark stieg die Übereinstimmungsrate der Antworten
  • 94 % Genauigkeit im Versicherungs-Benchmark, im Box-Test um 15 % verbesserte Leistung bei tiefem Schlussfolgern
  • Im Rakuten-AI-Test erreichte es Spitzenwerte bei der iOS-Codegenerierung sowie Verbesserungen bei moderner Tooling-Nutzung und Architekturqualität

Produkt- und Plattform-Updates

  • Auf der Claude Developer Platform werden adaptive thinking, extended thinking und context compaction (Beta) unterstützt
    • Älterer Kontext wird automatisch zusammengefasst, wodurch sich die effektive Kontextlänge erhöht
  • Updates für API-Tools:
    • web search und fetch schreiben und führen automatisch Code aus, um Suchergebnisse zu filtern
    • Funktionen wie code execution, memory, programmatic tool calling und tool search sind allgemein verfügbar
  • Das Add-in Claude in Excel unterstützt MCP connectors und kann mit externen Daten von S&P Global, LSEG, PitchBook und anderen verbunden werden
  • Sonnet 4.6 hält seine hohe Leistung auch ohne extended thinking, Nutzern von Sonnet 4.5 wird eine Migration empfohlen
  • Opus 4.6 eignet sich weiterhin für Aufgaben, die das tiefste Schlussfolgern erfordern, etwa Code-Refactoring oder die Koordination mehrerer Agenten

Verfügbare Zugangswege

  • Sonnet 4.6 ist in allen Claude-Tarifen, Claude Cowork, Claude Code, der API und auf wichtigen Cloud-Plattformen verfügbar
  • Auch der Free-Tarif wurde auf Sonnet 4.6 aktualisiert und umfasst Dateierstellung, Connectors, Skills und Compaction-Funktionen
  • Entwickler können es unter dem Modellnamen claude-sonnet-4-6 sofort über die Claude API verwenden

Wichtige Kennzahlen und Bewertungsmetriken (Zusammenfassung der Fußnoten)

  • OSWorld: Bewertet Computeraufgaben auf Basis realer Software, Sonnet 4.6 wurde im Zustand „thinking off“ gemessen
  • SWE-bench Verified: Durchschnittlich 80,2 % über 10 Durchläufe
  • ARC-AGI-2: 60,4 % im Modus mit maximalem Aufwand
  • MMMU-Pro: Punktzahl nach Verbesserung der Bewertungsmethode angepasst
  • In verschiedenen Tests wie Humanity’s Last Exam und BrowseComp wurde mit aktivierter Tool-Nutzung, Websuche und Kontextkomprimierung getestet

1 Kommentare

 
GN⁺ 2026-02-18
Hacker-News-Kommentare
  • Es ist beeindruckend, dass der Fokus auf der Computernutzung liegt. Offenbar wurde das als besonders wertvoll eingeschätzt. Aber bei der Sicherheit bleiben weiter Fragen offen. Laut ihrer eigenen Bewertung war ein automatisiertes Angriffssystem mit 8 % Wahrscheinlichkeit bereits beim ersten Versuch erfolgreich und bei unbegrenzten Versuchen lag die Erfolgsquote bei bis zu 50 %. Solche Zahlen sind schwer hinzunehmen. Falls ich da nichts missverstehe, ist das auf diesem Niveau nicht praxisfähig
    PDF zur Sicherheitsbewertung

    • Das Ziel dieser Technologie ist faktisch die Monopolisierung von computerbezogener I/O-Arbeit. Betroffen sind nicht nur SWE, sondern die meisten Bürojobs. Eine Person soll die Arbeit von drei erledigen, um Personalabbau zu ermöglichen. Aus Unternehmenssicht gibt es kaum einen Grund, das abzulehnen, wenn bei gleichem Umsatz die Personalkosten auf ein Drittel sinken. In so einer Struktur kann allerdings jeder mit LLMs ein Business aufbauen, und am Ende gibt es Überkonkurrenz, sodass sich die Gewinnmargen gegen null bewegen. Wenn alle dasselbe Modell nutzen, verschwindet die Differenzierung. Selbst starke Open-Source-Modelle könnten dadurch die soziale Mobilität schwächen
    • Die 8-%-Zahl finde ich eher überraschend gut. Entscheidend ist weniger das Modell selbst als die Kontrollmechanismen der Betriebsumgebung. In realen Services sind Monitoring und ein Kill Switch unverzichtbar. Dass ein Modell „hinreichend sicher“ ist, ist nur eine notwendige, keine hinreichende Bedingung
    • Das ist das Kernproblem, über das niemand sprechen will. Wenn Sicherheit nicht gelöst ist, ist ein großflächiger Ersatz von Arbeit nicht möglich. Für Zusammenfassungen oder Assistenzfunktionen ist das okay, aber sobald man autonome Entscheidungen überträgt, explodiert das rechtliche Risiko. Wenn AI-Unternehmen dieses Problem nicht lösen, wird ihnen am Ende das Geld ausgehen. Im aktuellen Verlauf bleibt AI wohl ein nützliches Werkzeug wie Suche oder Rechtschreibprüfung, aber ein großflächiger Ersatz von Jobs dürfte nicht eintreten
    • Tatsächlich könnte es in einfachen, repetitiven Fällen wie der Automatisierung interner Apps nützlich sein. Zum Beispiel täglich dieselbe Web-App öffnen, den Kalender lesen und auf Buttons klicken. In solchen Umgebungen gibt es keine Angreifer, daher verschwindet das Sicherheitsproblem fast vollständig
    • Die Zahlen von 8 % und 50 % sind besorgniserregend, aber sie stammen aus einer „Computer-Use-Umgebung“. In einer Coding-Umgebung lag der Wert mit aktiviertem Extended Thinking bei 0,0 %. Es ist also noch ein experimenteller Bereich
  • Ich habe rund 900 Gedichte aus meiner privaten Sammlung in Sonnet 4.6 getestet, und im Vergleich zu Opus 4.6 gibt es einen großen Unterschied. Opus 4.6 zeigte erstaunliche Analysen, während Sonnet 4.6 weiterhin häufig halluziniert und Fehler macht. In Coding-Tests hatte ich einen ähnlichen Eindruck. Gegenüber Opus fällt es deutlich ab

    • Jemand freute sich, nach langer Zeit wieder einen Gedichtetest zu sehen. Es wäre schön, wenn solche Analysen gesammelt und aufbereitet würden
    • Opus 4.6 steigert beim Schreiben von Code die Produktivität um mehr als das Dreifache. Es geht verantwortungsvoll mit dem gesamten Projekt um und versteht die Absicht des Nutzers gut. Anders als frühere Versionen nimmt es nicht heimlich Abkürzungen oder ruiniert das Ergebnis
  • Sonnet 4.6 scheitert weiterhin an dem „Car-Wash-Problem“. Ich habe die Originalfrage unverändert eingegeben, und die Antwort war: „Geh zu Fuß.“ Auch mit mehreren Varianten zeigte sich ein ähnliches Scheitern

    • In meinem Test war es genau umgekehrt und die Sofortantwort lautete: „Fahr mit dem Auto.“ Es war sehr entschieden nach dem Muster „Wenn du zur Autowäsche gehst, musst du ein Auto haben“. Vermutlich wurden unterschiedliche Versionen ausgeliefert
    • Diese Gegensätzlichkeit der Antworten ist interessant. Selbstsichere Fehler, ein typisches Halluzinationsmuster
    • Eine Antwort schlug vor, das Auto dorthin zu schieben. Geteilter Link
    • Eine andere Antwort lautete: „Geh zu Fuß, es sind 30 Sekunden“, und nannte Umwelt und Gesundheit als Gründe. Extended Thinking war dabei deaktiviert
    • Diese Frage wird wohl künftig oft als Benchmark-Test verwendet werden
  • Man merkt wieder, dass „Wettbewerb gut für Verbraucher ist“. Je härter der Marktwettbewerb, desto besser werden die Ergebnisse

    • Der aktuelle AI-Wettbewerb wirkt aber wie ein „ungesichertes Wettrüsten“. Wegen der Winner-takes-all-Struktur investieren alle auf eine Weise, bei der am Ende alle verlieren. Durch Überinvestitionen könnte das gesellschaftlich insgesamt ineffizient sein
    • Wenn man daran denkt, dass GPT-2 2019 noch als „zu gefährlich für eine Veröffentlichung“ galt, war der Start von ChatGPT der Auslöser für diesen Wettbewerb
    • Es ist gefährlich zu glauben, dass alle Märkte wie vollkommene Konkurrenz funktionieren. In der Realität gibt es viele Monopole und Informationsasymmetrien
    • Der aktuelle AI-Markt ist eine der intensivsten Wettbewerbslagen der Menschheitsgeschichte. Verschwörungstheorien, nach denen Modelle absichtlich schlechter gemacht würden, sind nicht überzeugend
    • Am Ende bleiben wohl nur zwei Unternehmen übrig, und dann beginnt die Phase der Gewinnabschöpfung
  • Der Test mit dem „Helikopter-Car-Wash“ war großartig. Sonnet 4.6 antwortete mit „Geh zu Fuß“, und das war lustig, weil es fast wie eine Satire auf die amerikanische Gewohnheit wirkt, selbst kurze Strecken mit dem Auto zu fahren

    • Jemand meinte, das sei der Lieblingstest. Man spüre, dass das Modell mit Reddit-artigen Humordaten trainiert wurde
  • Es überrascht, dass Sonnet 4.6 ein Leistungsniveau auf Höhe von Opus 4.5 hat. Das Entwicklungstempo erinnert an die Leistungssteigerungen im Computing der 1990er Jahre

    • Wirklich interessant ist weniger die höhere Spitze als die angehobene Untergrenze. Opus-artiges Reasoning zu Sonnet-Preis und Sonnet-Latenz zu bekommen, ist revolutionär. Das bedeutet im Grunde, dass man alle 6 bis 9 Monate dieselbe Intelligenzeinheit zum halben Rechenpreis erhält
    • Auf die Bemerkung über das „Tempo der 1990er“ folgte der Witz, dass auch die RAM-Preise wieder auf dem Niveau dieser Zeit seien
    • Anstelle von simonw wurde ein „Pelikan auf dem Fahrrad als SVG“ erzeugt und geteilt. Bildlink
    • Es gab auch einen Fall, in dem Opus ein Foto der nächtlichen Skyline von NYC falsch beschrieb. Mistral war genauer. OpenAI blockierte URL-Uploads, und Gemini leitete zu VertexAI weiter. Getestet wurde in einer Langchain-Umgebung
    • Laut System Card wird ausdrücklich erwähnt, dass Sonnet 4.6 bei Office-Arbeit und Finanzanalyse besser ist als Opus 4.6
  • Der Preis von Sonnet 4.5 liegt bei $3/$15 per million tokens, und ich frage mich, wie viele Leute bereit sind, das zu zahlen. Open-Weight-Modelle holen schnell auf und sind deutlich günstiger

    • Ich probiere gerade einen hybriden Ansatz aus. Das meiste läuft über GLM5, und im letzten Schritt prüfen Opus/Sonnet noch auf Bugs
    • In meinem kleinen Benchmark war Claude 4.6 schlechter als das kostenlose Stepfun 3.5. Siehe aibenchy.com. Die Treffsicherheit bei der Befolgung von Anweisungen ist weiterhin niedrig
    • Am Ende ist es eine Frage, wie wertvoll man den Unterschied zwischen „ziemlich gut“ und „SOTA“ findet. Ein Modell mit vielen Fehlern zu verwenden, ist letztlich ebenfalls ein Kostenfaktor
    • Manche bevorzugen Modelle wie Claude, die stark im Schlussfolgern über Kontext sind. Bei GLM muss man viele Details explizit angeben
  • Ich war damit beschäftigt, Unterstützung für Opus/Sonnet 4.6 im Plugin llm.datasette.io hinzuzufügen, deshalb habe ich das Pelikan-Bild erst später erstellt. Das Ergebnis liegt auf Opus-4.5-Niveau und zeigt eine Version mit elegantem Zylinder
    Zugehöriger Blogpost

    • In anderen Versuchen habe man denselben Pelikan mit Zylinder ebenfalls gesehen
  • Ich habe in den letzten Tagen mit Sonnet 4.5 getestet, und die Gespräche waren ungewöhnlich interessant und konsistent.
    In den persönlichen Einstellungen hatte ich „objektive Fakten und kritische Analyse priorisieren, keine emotionale Empathie“ eingetragen, und das wurde tatsächlich sehr gut befolgt. ChatGPT reagiert ähnlich

  • Mehrere Nutzer berichten, dass Opus 4.6 5- bis 10-mal mehr Tokens verbraucht als 4.5. Issue-Link. Eine offizielle Antwort gibt es noch nicht. Deshalb will ich vorerst bei 4.5 bleiben

    • Oft sind einfach die Leute am lautesten, die Probleme haben. Ich bin mit 4.6 zufrieden, weil es schneller ist und Tools aktiver aufruft. Wenn man das Reasoning Level auf medium senkt, lässt sich übermäßiges Nachdenken reduzieren
    • Nach meiner Erfahrung hält sich Opus 4.5 eher strikt an einen Plan, während 4.6 adaptiv und explorativ ist. Bei einfachen Problemen ist es ineffizient, bei schwierigen aber deutlich schneller
    • Unter /models kann man das Reasoning Level überprüfen. Wenn es auf high steht, steigt der Token-Verbrauch stark an
    • Ich habe ebenfalls innerhalb weniger Tage mein Monatsbudget komplett aufgebraucht
    • In meinen Experimenten nutzte 4.6 etwa 15 bis 45 % mehr Tokens als 4.5. Das war allerdings in Fällen, in denen aus unvollständigen Prompts Schlussfolgerungen gezogen werden mussten. Bei gut formulierten Aufgaben gibt es keinen großen Unterschied. Die Reasoning Tokens von Sonnet 4.6 sind strukturierter als zuvor, neigen aber zunehmend zu mehr Ausführlichkeit. Das erinnert stilistisch an Google-Modelle