6 Punkte von GN⁺ 3 시간 전 | 4 Kommentare | Auf WhatsApp teilen
  • Anthropic bringt am 30. Juni 2026 Claude Sonnet 5 heraus und will agentische Ausführungsfähigkeiten nahe an teurere Opus-Klasse-Modelle zu Sonnet-Klasse-Kosten anbieten
  • Gegenüber Sonnet 4.6 wurden Schlussfolgern, Tool-Nutzung, Coding und Wissensarbeit verbessert, und mit der effort-Steuerung lässt sich das Gleichgewicht zwischen Kosten und Leistung je nach Aufgabe feiner wählen
  • In den Sicherheitsbewertungen lagen unerwünschtes Verhalten, Halluzinationen, Schmeichelei, die Annahme bösartiger Anfragen und die Anfälligkeit für Prompt-Injection-Hijacking unter Sonnet 4.6, einige Fehlanpassungsverhalten waren jedoch höher als bei Opus 4.8 und Claude Mythos Preview
  • In Free und Pro wird es als Standardmodell bereitgestellt und ist auch in Max, Team, Enterprise, Claude Code und Claude Platform verfügbar; der API-Modellname ist claude-sonnet-5
  • Der Preis auf der Claude Platform beträgt bis zum 31. August 2026 2 $ pro 1 Million Eingabetokens und 10 $ pro 1 Million Ausgabetokens; danach 3 $ für Eingabe und 15 $ für Ausgabe, und mit dem neuen Tokenizer kann dieselbe Eingabe je nach Inhaltstyp etwa dem 1,0- bis 1,35-Fachen an Tokens entsprechen

Größerer agentischer Ausführungsumfang in der Sonnet-Klasse

  • Claude Sonnet 5 wurde als bisher am stärksten agentisch ausgelegtes Sonnet-Modell konzipiert und zielt auf ein Maß an autonomer Ausführung, für das vor einigen Monaten noch größere und teurere Modelle nötig gewesen wären
  • Planung, Tool-Nutzung wie Browser und Terminal sowie autonome Ausführung wurden so verbessert, dass sie von einem Modell der Sonnet-Klasse bewältigt werden können
  • Sonnet 3.5, 3.6 und 3.7 etablierten sich bei Entwicklern als frühe Sonnet-Klasse-Modelle mit Fähigkeiten für Coding und Tool-Nutzung, während die deutlichsten Fortschritte bei agentischen Fähigkeiten danach bei Modellen der Opus-Klasse zu sehen waren
  • Sonnet 5 verringert den Abstand zu Opus 4.8 und bietet in einer niedrigeren Preisklasse eine Leistung nahe an Opus 4.8

Leistungsbewertung und effort-Steuerung

  • Sonnet 5 verbessert sich gegenüber Sonnet 4.6 deutlich in agentischen Leistungskategorien wie Schlussfolgern, Tool-Nutzung, Coding und Wissensarbeit
  • In der Agentic-Search-Bewertung BrowseComp und in der Computer-Use-Bewertung OSWorld-Verified zeigte es durchgängig bessere Ergebnisse als Sonnet 4.6
  • Im Vergleich nach effort-Stufen bietet Sonnet 5 eine größere Kosten-Leistungs-Auswahl als Opus 4.8
    • Bei mittlerem effort verbessert sich die Kosteneffizienz deutlich
    • Bei hohem effort kann die Leistung bei einigen Aufgaben an Opus 4.8 heranreichen
  • Nutzer können zwischen Sonnet 5 und Opus 4.8 das effort-Niveau anpassen, um für ihr Projekt die passende Balance aus Kosten und Leistung zu wählen

Arbeitsweise in frühen Anwendungsfällen

  • Partner mit frühem Zugang bewerteten Sonnet 5 als deutlich stärker agentisch als frühere Sonnet-Modelle
  • Es gab Fälle, in denen komplexe Aufgaben, bei denen frühere Sonnet-Modelle unterwegs stoppten, bis zum Ende ausgeführt wurden, und Ergebnisse auch ohne ausdrückliche Aufforderung selbst überprüft wurden
  • Die bestätigten Workflows umfassten sowohl Coding- als auch Nicht-Coding-Aufgaben
    • Bei mehrstufigen Software-Engineering-Aufgaben bewältigt es fortlaufendes Coding, Tool-Nutzung und Debugging
    • Es schloss eine zweistufige Aufgabe vollständig ab, bestehend aus der Aktualisierung von Salesforce-Kontostufen und dem Versand von Launch-Mitteilungen an Enterprise-Kontakte
    • Es bearbeitete selbstständig mehrere Dutzend reale pull requests bis hin zu getesteten und verifizierten Ergebnissen
    • Bei der Bug-Untersuchung führte es Reproduktionstests schreiben, Fixes implementieren, Änderungen stashen und die Rückkehr des Bugs prüfen in einem Durchgang aus
    • In Brownfield-Code zeigte es Stärken beim Nachverfolgen von Race Conditions, hidden tests und der tatsächlichen Grundursache von Fehlern
  • Auch bei Nicht-Coding-Aufgaben wie juristischer Recherche und Analyse, der Erkundung von Live-Daten in ClickHouse und Versicherungs-Workflows von Pace wurden Verbesserungen bei Leistung und Geschwindigkeit beobachtet

Sicherheitsbewertungen und Cybersecurity-Beschränkungen

  • In den Sicherheitsbewertungen vor der Bereitstellung verbesserte sich Sonnet 5 insgesamt bei der Sicherheit gegenüber Sonnet 4.6
  • Im Bereich agentischer Sicherheit verbesserte sich sowohl die Ablehnung bösartiger Anfragen als auch die Widerstandsfähigkeit gegen Hijacking-Versuche durch Prompt-Injection-Angriffe
  • Gegenüber Sonnet 4.6 waren die Raten von Halluzinationen und Schmeichelei geringer, und auch in automatisierten Verhaltensaudits zur Prüfung von Fehlanpassungsverhalten wie Missbrauchskooperation und Täuschung lagen die Werte niedriger, also sicherer
  • Verglichen mit dem leistungsstärkeren Opus 4.8 und Claude Mythos Preview lag die Rate einiger Fehlanpassungsverhalten in dieser Bewertung jedoch etwas höher
  • Sonnet 5 wurde nicht gezielt für Cybersecurity-Aufgaben trainiert
    • Einige alltägliche und harmlose Cyber-Aufgaben kann es ausführen
    • In Bewertungen potenziell gefährlicher Cyber-Fähigkeiten wie der Entwicklung von Software-Exploits lag seine Leistung deutlich unter Opus 4.8 und Mythos 5
    • In einer Bewertung zur Entwicklung eines Exploits für eine Firefox-Browser-Schwachstelle konnte es keinen vollständig funktionierenden Exploit erstellen, die Teil-Erfolgsrate lag jedoch leicht über Sonnet 4.6
  • Da es bei diesen Aufgaben etwas stärker ist als frühere Modelle, wird es mit standardmäßig aktivierten Cyber-Schutzmechanismen veröffentlicht
    • Diese erkennen und blockieren gefährliche Cyber-Nutzung in Echtzeit
    • Es sind dieselben Schutzmechanismen wie bei Claude Opus 4.7 und 4.8
    • Das gesamte Cybersecurity-Risikoprofil von Sonnet 5 wird als niedrig eingeschätzt, weshalb die Mechanismen weniger strikt sind als die Fable-5-Schutzmechanismen, die ein breiteres Spektrum an Cybersecurity-Aufgaben blockieren
  • Die vollständige Bewertung ist in der Claude Sonnet 5 System Card zu finden

Verfügbarkeit, Preise und API

  • Claude Sonnet 5 ist in allen Tarifen verfügbar
    • Es ist das Standardmodell in den Tarifen Free und Pro
    • Nutzer von Max, Team und Enterprise können es verwenden
    • Es ist auch in Claude Code und Claude Platform verfügbar
  • Entwickler können in der Claude API claude-sonnet-5 verwenden
  • Der Einführungspreis auf der Claude Platform beträgt bis zum 31. August 2026 2 $ pro 1 Million Eingabetokens und 10 $ pro 1 Million Ausgabetokens
  • Danach ändern sich die Standardpreise auf 3 $ pro 1 Million Eingabetokens und 15 $ pro 1 Million Ausgabetokens
  • Um den höheren Tokenverbrauch bei hohen effort-Stufen aufzufangen, werden die Anfragelimits über Chat, Cowork, Claude Code und Claude Platform hinweg erhöht
  • Sonnet 5 ist ein Upgrade von Sonnet 4.6, verwendet jedoch einen aktualisierten Tokenizer
    • Zur Leistungsverbesserung wurde die Textverarbeitung geändert
    • Dieselbe Eingabe kann je nach Inhaltstyp auf etwa das 1,0- bis 1,35-Fache an Tokens abgebildet werden
    • Der Einführungspreis wurde so festgelegt, dass der Wechsel zu Sonnet 5 im Allgemeinen kostenneutral bleibt

Update des BrowseComp-Diagramms

  • In einer Bearbeitung vom 30. Juni 2026 wurde das Kosten-Leistungs-Diagramm der BrowseComp-Bewertung aktualisiert
  • Das ursprüngliche Diagramm basierte auf Daten aus einer einfacheren Methodik, die nicht die Standardmethodik widerspiegelt, die Anthropic für die Agentic-Search-Bewertung verwendet, wodurch die Leistung von Sonnet 5 unterschätzt wurde
  • Das aktualisierte Diagramm wurde an die Standardmethodik sowie an die in der Sonnet-5-System-Card verwendete und diskutierte Vorgehensweise angepasst
    • Diese Vorgehensweise verwendet ein Budget von 10M Tokens, Komprimierung und programmatische Tool-Aufrufe
  • Auch die begleitenden Beschreibungstexte wurden aktualisiert

4 Kommentare

 
dhkd63 2 시간 전

Vielleicht liegt es daran, dass ich mich an Opus 4.8 gewöhnt habe, oder daran, dass ich Sonnet eine Weile nicht benutzt habe ...
Ich habe heute kurz Sonnet verwendet und war sehr enttäuscht.
Früher wäre ich vielleicht völlig zufrieden gewesen, aber es gab deutlich mehr Halluzinationen, als ich erwartet hatte.

 
sea715 2 시간 전

Gib mir einfach fable..

 
seoseonyu 3 시간 전

Gebt mir schnell Fable ... 😢😢

 
GN⁺ 3 시간 전
Meinungen auf Hacker News
  • Wenn man sich das Kostendiagramm pro Aufgabe ansieht, sollte man Sonnet 5 wohl nicht oberhalb eines mittleren Effort-Levels verwenden. Bei gleichen Kosten ist Opus immer besser; wenn Sonnet 5 auf mittlerem Niveau nicht ausreicht, scheint die Konsequenz nicht zu sein, das Effort-Level zu erhöhen, sondern das Modell zu wechseln.

    • Ich bin dankbar, dass solche Informationen veröffentlicht werden, aber es wird zunehmend schwieriger, den Überblick zu behalten. Ich verliere mein mentales Modell dafür, welche Leistung unterschiedliche Modelle und Effort-Levels bringen und für welche Aufgaben sie geeignet sind.
      In der Praxis nutze ich meist einfach die Standardeinstellungen von Claude Code, und das funktioniert gut genug. Mich interessiert aber, wie stark andere Nutzer mit solchen Einstellungen experimentieren und sie auf ihre Projekte hin optimieren.
    • Hier gibt es zwei Variablen. Beim Claude.ai-Abo scheint Sonnet deutlich günstiger zu sein als Opus, weshalb es im Max-Tier lange Zeit eine Nutzungsleiste nur für Sonnet gab.
      Außerdem ist bei manchen Aufgaben schlicht die Menge der Eingabe-Tokens selbst der wichtigste Faktor. Multimodale Computer-Use-Aufgaben lassen sich zum Beispiel nicht effizienter machen, indem man bei Opus das Reasoning senkt; dafür ist ein günstigeres Modell wie Sonnet nützlich.
    • Ich habe dasselbe Diagramm gesehen und fand die Lage der Kurve im Vergleich zu Opus ziemlich überraschend. Sonnet 5 fühlt sich an wie: „Was wäre, wenn Opus noch ein ultraniedriges Effort-Level hätte?“
    • Als Gegenargument könnte Sonnet schneller sein. Weil man für dieselbe Aufgabe mehr Tokens ausgeben kann, ist das nicht sicher, aber in synchronen iterativen Workflows könnte man damit mehr erledigen.
      In der Praxis verbringe ich allerdings so viel Zeit damit, die vom Modell erzeugten Ergebnisse zu korrigieren, dass ein langsameres, aber intelligenteres Modell meiner Ansicht nach die Gesamtzeit reduziert.
    • Da es ein Sonnet-Modell ist, ist es tatsächlich besser als Sonnet 4.6[0]. Es ist intelligenter, schneller und günstiger, aber ich bin mir nicht sicher, warum man es statt Opus 4.8 low oder GLM-5.2 verwenden sollte.
      [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
  • Ich habe es mit meinem Benchmark[0] getestet: Es liegt auf GLM-5.2-Niveau, kostet doppelt so viel, ist aber auch doppelt so schnell.
    Die Schwächen: Bei Allgemeinwissens-Quizfragen 0/3, also kaum eingebautes Wissen; bei komplexen Tool-Calling-Aufgaben 45/100, mit gelegentlich falschen Tool-Aufrufen; beim Lösen von Rätseln 77 Punkte, mit Fehlern bei Tests vom Typ Autowaschanlage.
    [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...

    • In diesem Benchmark erscheint Gemini 3.5 Flash als bestes Modell, was ich nicht nachvollziehen kann.
    • Wie immer bedeutet die Aussage, es sei schneller als GLM-5.2, nicht besonders viel. GLM-5.2 wird von mehreren Anbietern bereitgestellt, daher kann die Inferenzgeschwindigkeit je nach Anbieter und Zeitpunkt stark variieren.
    • Aus einem unvollständigen Vergleich, bei dem ich beide für Planung und Ausführung genutzt habe: GLM5.2 ist zu voreilig und hat zu viel Drang, irgendetwas zu tun, wodurch es oft Probleme erzeugt. Zum Beispiel versucht es Deployments oder git zu verwenden, selbst wenn es das nicht sollte.
      Sonnet 5 dagegen war unter den Claude-Modellen, die ich ausprobiert habe, deutlich fauler; es fügte eine angeforderte Ergänzung zum Plan nicht hinzu und log anschließend, als ich nachfragte, es habe sie erledigt. Nach der Analyse[0] sieht es für mich wertlos aus; bei anderen kann das anders sein. Fable war definitiv deutlich besser.
      [0]: https://artificialanalysis.ai/models/claude-sonnet-5
  • Bei mehreren Benchmarks übersteigen die Kosten pro Aufgabe ab einem Effort-Level über „medium“ die von Opus. Ich verstehe daher schwer, warum man das verwenden sollte, statt einfach Opus mit niedrigem Effort-Level zu nutzen.
    Mir fällt nur der Fall ein, dass die Opus-Credits aufgebraucht sind. Natürlich gibt es Anwendungsfälle mit API-Abrechnung, aber selbst dann würde ich wohl Opus mit niedrigem Effort-Level verwenden.

    • In letzter Zeit muss man Opus immer häufiger davon abhalten, dumme Dinge zu tun, und ihm jedes Mal sagen, dass es die Aufgabe nicht unnötig verkomplizieren soll.
      Es wirkt, als würden die Modelle eher darauf optimiert, den Nutzern und dem Unternehmen mehr Geld zu entlocken, als Probleme zu lösen. Ich weiß nicht, warum Opus bei einer klar angewiesenen einfachen Python-Aufgabe von zwei bis drei Zeilen versucht, eine ganze Bibliothek zu bauen.
    • Ich glaube, dass bestimmte auf Einzelaufgaben basierende Benchmarks viele alltägliche agentische Anwendungsfälle nicht gut widerspiegeln. Wenn man einzelne Aufgaben nacheinander bearbeiten und jedes Mal den Kontext löschen kann, lässt sich mit Opus auf niedrigem Effort-Level vielleicht diese Effizienz erreichen.
      Wenn man aber an realen Problemen iteriert und exploriert, wächst die Kontextlänge immer weiter, und dann wird Opus oft teuer.
    • Frühere Opus-Modelle werden wahrscheinlich irgendwann nicht mehr unterstützt, und mit der Zeit wird dies das günstigste Modell werden. So funktioniert die aktuelle Preisgestaltung.
    • Wenn man sich die agentischen Coding-Benchmarks auf den Seiten 117–118 der System Card[0] ansieht, ist die Leistung selbst auf niedrigem Effort-Level besser als jedes Niveau von Sonnet 4.6, und der Preis wirkt recht günstig. Daher könnte es als Arbeiter, der von Opus geplante Aufgaben abarbeitet, ganz gut sein.
      [0] https://www.anthropic.com/claude-sonnet-5-system-card
    • Geschwindigkeit ist ein wichtiger Grund. Manchmal muss man einfache Aufgaben schnell erledigen, und 30–60 Sekunden zu warten, bis Opus überhaupt anfängt zu denken, fühlt sich wirklich langsam an.
  • Claude Sonnet 5 soll der bislang agentenartigste Sonnet sein. Es plant, nutzt Tools wie Browser oder Terminal und kann auf einem Niveau autonom handeln, für das vor ein paar Monaten noch größere und teurere Modelle nötig gewesen wären.
    Ich betreibe eher agentenunterstützte Entwicklung als vollständig agentengesteuerte Entwicklung und habe deshalb häufiger Sonnet 4.6 als Opus genutzt. Diese Ankündigung fühlt sich für mich aber nicht positiv an. Je stärker ein Modell für vollständig agentenartige Entwicklung optimiert wird, desto schlechter wurde es oft für unterstützende Entwicklung, und selbst bei sehr strengen, konkreten Anweisungen neigte es dazu, zu viel loszutreten.
    In den letzten Wochen wechsle ich zunehmend zu K2.7 Code und GLM-5.2. Für unterstützende Zwecke reichen sie oft aus und sind sehr schnell und günstig.

    • Eines dieser Unternehmen hat, um den Ausdruck zu verwenden, ganz klar die Chance, Zeit in ein Modell zu investieren, das auf agentenunterstützte Entwicklung zugeschnitten ist.
      Das Problem ist, dass die Leute in diesen Unternehmen offenbar glauben, dass in ein bis zwei Jahren niemand mehr so arbeiten wird.
    • Ich nutze derzeit Kimi K2.6. Über den Freigabeweg meiner Firma kann ich 2.7 noch nicht verwenden, aber wenn ich schon weiß, was ich vorhabe, und den Prozess in Stücke aufteilen will, funktioniert es gut.
      Ich muss etwas mehr nachbessern als bei Opus. Der eigentliche Maßstab liegt aber zwischen „ich muss jede Zeile lesen“ und „ich kann es vertrauen, ohne jede Zeile zu lesen“, und für mich hat kein Modell Letzteres erreicht; das wird wohl noch eine Weile so bleiben. Beim Brainstorming von Architekturen und deren Umsetzung in Code ist es nicht so gut wie Opus, aber dieses Problem habe ich nicht immer, und wenn nötig, nutze ich eben Opus.
      Dadurch komme ich auch in Wochen mit viel Coding die ganze Woche bequem durch, ohne schon am Mittwoch oder Donnerstag ans Ausgabenlimit zu stoßen. Allerdings habe ich in der Praxis das Gefühl, K2.6 deutlich stärker bremsen zu müssen als Opus. Wenn ich nur eine Frage stellen will, muss ich viel vorsichtiger sein, damit es nicht sofort daraus schließt, es solle mit einer Coding-Aufgabe losrennen. Ich nutze beide im Planungsmodus, aber bei K2.6 muss ich defensiver vorgehen als bei Opus.
    • Ich bin eine Zeit lang komplett auf lokale Modelle umgestiegen, die auf einem M1 Mac Studio mit 64 GB Arbeitsspeicher laufen. In den seltenen Fällen, in denen mir ein lokal quantisiertes Qwen3.6 nicht reicht, verbinde ich mich trotzdem mit Openrouter und nutze Dinge wie Kimi, GLM oder Deepseek zu einem Bruchteil der Preise von Anthropic und anderen.
    • Fühlt sich fast genauso an, und die Situation ist ähnlich. Der größere Vorteil bei Sonnet ist die Antwortzeit.
    • Es könnte sich lohnen, OpenAI-Modelle wie GPT 5.5 auszuprobieren. Sie folgen den im Prompt festgelegten Anweisungen und Grenzen besser und fühlen sich ohne Intelligenzverlust wie ein fähigerer Agenten-Assistent an als die Claude-Modelle.
      Der Großteil meiner Arbeit ist eher agentenartige Engineering-Arbeit als „anwerfen und vergessen“. Ich bleibe auch in der Planungsphase beteiligt, prüfe die Ergebnisse und stelle dem Agenten deutlich mehr Fragen als andere Leute. Für mich funktioniert es am besten, wenn ich Anforderungen, Umfang, Design und manchmal sogar konkrete Modulgrenzen festlege und es dann im Modus „superstarkes Autocomplete“ die Lücken füllen lasse.
  • Auch das Preis-Leistungs-Verhältnis wirkt schlechter als bei GLM 5.2. Und das, obwohl GLM 5.2 „nur“ 744B Parameter hat.
    In der System Card steht: „Bei der Suche nach CyberGym-Schwachstellen ist Claude Sonnet 5 weniger fähig als Sonnet 4.6 und deutlich weniger fähig als Opus 4.8 und Mythos 5.“
    Außerdem heißt es: „Wie bei den anderen Bewertungen in diesem Abschnitt wurden diese Ergebnisse mit deaktivierten Schutzmaßnahmen erzielt. Mit aktivierten Standard-Mitigationsmaßnahmen erreichte Sonnet 5 bei CyberGym 0 Punkte.“

    • Ich habe Texte mit GLM-5.2 und Sonnet 4.6 umschreiben lassen, und weil große Sprachmodelle nichtdeterministisch sind, waren die Ergebnisse völlig unterschiedlich. GLM-5.2 machte viele subtile Fehler, die ich von Hand korrigieren musste; Sonnet hingegen fand und behob in der zweiten Runde alle Fehler.
      Beim Planen und Coden war es ähnlich. GLM-5.2 sieht „auf dem Papier“ gut aus, aber die Ergebnisse im echten Einsatz waren anders.
      Ich will weder Claude noch GLM-5.2 verteidigen. Was ich seit November 2022 durch tägliche Nutzung großer Sprachmodelle gelernt habe: Allgemeine Tests muss man am eigenen Projekt überprüfen. Es gibt kein „ein Modell, sie alle zu beherrschen“; man muss in einem Heuhaufen aus Tausenden Modellen das passende finden.
      Benchmarks sind hilfreich, fühlen sich aber zunehmend wie die Verbrauchsangaben in Autowerbung an. Der tatsächliche Verbrauch ist bei jedem anders.
    • Endlich eine tragfähige Geschäftsstrategie. Sicherheitsblinde Code Monkeys billig verkaufen und für die Agenten, die das Chaos aufräumen können, Premiumpreise verlangen.
    • Das richtet sich nicht gegen eine bestimmte Person, aber ich hoffe, dass die Qualität der Diskussionen auf HN irgendwann über solche Grundvergleiche hinauskommt. In jedem Thread zu einem neuen Modell scheinen dieselben Kommentare wiederholt zu werden.
      Nach dem Muster: „Modell X ist in Benchmark T um Y % besser oder schlechter als Claude Z“, „das ist bedeutungslos, es ist auf Benchmarks optimiert“, „für Alltags-Coding oder Agentenarbeit ist es unbrauchbar, es fühlt sich völlig falsch an“, „es ist fast genauso gut und viel günstiger, also nutze ich es auf jeden Fall“, „wegen der stufenweisen Leistungsunterschiede rechtfertigen die niedrigen Kosten offener Modelle den Produktivitätsverlust nicht“.
      Ich bin ein mit Anthropic unzufriedener Kunde und feuere offene Modelle und nicht abgeschottete Intelligenz wirklich an. Aber ich weiß nicht, wie man aus dieser inzwischen memartigen Wiederholung der Model-Launch-Debatte herauskommen soll. Ich entwerfe selbst keine großen Sprachmodelle oder Benchmarks und schätze den Versuch, Informationen bereitzustellen, auch wenn er nicht perfekt ist, wirklich. Ich vermute, die meisten, die solche Ankündigungskommentare regelmäßig lesen, empfinden ähnlich.
  • Claude Sonnet 5 beschrieb seinen eigenen Pelikan als Gans.
    „Eine weiße Gans fährt Fahrrad, streckt einen Flügel nach vorn, um den Lenker zu halten, vor schlichtem weißem Hintergrund mit brauner Bodenlinie.“
    https://simonwillison.net/2026/Jun/30/claude-sonnet-5/

    • Das könnte einer der schlechtesten Pelikane sein, die große Sprachmodelle in letzter Zeit erzeugt haben.
      GLM 5.2 hingegen zeichnete einen schönen, eigenständig funktionierenden, vollständig animierten SVG-Pelikan.
      https://simonwillison.net/2026/Jun/17/glm-52
  • Ich habe heute versehentlich ein wenig Sonnet 5 benutzt, und für Softwareentwicklung wirkte es deutlich schlechter als Opus 4.8.

  • Ich frage mich, ob übermäßige Paranoia in Sachen Cybersicherheit am Ende dazu führt, dass Modelle weniger sicheren Code erzeugen. Denn die Fähigkeit, sicheren Code zu schreiben, bedeutet ja, dass man etwas über Cybersicherheit weiß – und mit diesem Wissen könnte man gewissermaßen auch Banken auf der ganzen Welt hacken.

    • Bei Bildgenerierungsmodellen hat der Versuch, Nacktheit zu zensieren, zu allen möglichen Problemen bei der Darstellung von Anatomie geführt. Ich vermute, dass solche Modelle bei Sicherheit ähnliche Probleme bekommen werden.
    • Vielleicht ist genau das das Ziel.
  • Ich hatte ziemlich hohe Erwartungen an dieses Modell und habe deshalb in drei verschiedenen Projekten die Opus-Planner gebeten, statt Opus-Subagenten Sonnet zu verwenden, um mir schneller bei Experimenten mit HPC-Kernels zu helfen. Aber kein einziges hat auch nur eine Zeile Code geschrieben; die Sonnets drehten sich nur im Kreis und verschwendeten Tokens.
    Ich kann mich nicht einmal daran erinnern, wann mir so etwas mit Opus in meiner Codebase zuletzt passiert ist. Ich stelle es gerade wieder zurück.

    • So etwas gab es schon früher bei neuen Modell-Releases. Als Opus 4.7 herauskam, war es auch über 20 Minuten lang „am Arbeiten“, sodass ich es einfach komplett beendet und bis zum nächsten Tag gewartet habe.
      Das verschwand von selbst.
  • Der wichtige Punkt ist dieser: „Sonnet 5 ist ein Upgrade von Sonnet 4.6, verwendet aber einen aktualisierten Tokenizer, der die Art ändert, wie das Modell Text verarbeitet, um Leistungssteigerungen zu erzielen. Das ähnelt der Tokenizer-Änderung, die mit Claude Opus 4.7 eingeführt wurde. Der Preis dafür ist, dass derselbe Input auf mehr Tokens abgebildet werden kann. Je nach Inhaltstyp sind es ungefähr 1,0- bis 1,35-mal so viele. Der Einführungspreis wurde so festgelegt, dass der Wechsel zu Sonnet 5 ungefähr kostenneutral bleibt.“

    • Heißt das, dass der Preis nach der Einführungsphase so festgelegt wird, dass Sonnet 5 100 bis 135 % mehr kostet?
    • „Es gibt zwei Möglichkeiten, die Preise zu erhöhen: (1) den Preis pro Token erhöhen oder (2) die Anzahl der Tokens erhöhen, die wir im Namen der Nutzer erzeugen. Wir versprechen, (2) nicht böswillig zu tun. Versprochen.“