Claude 4 vorgestellt: Opus 4 und Sonnet 4

(anthropic.com)

1 Punkte von GN⁺ 2025-05-23 | 1 Kommentare | Auf WhatsApp teilen

Anthropic hat Claude Opus 4 und Claude Sonnet 4 vorgestellt und positioniert Coding, fortgeschrittenes Reasoning und AI-Agent-Aufgaben als zentrale Leistungsbereiche der nächsten Claude-Generation
Beide Modelle sind hybride Modelle, die zwischen sofortigen Antworten und tiefem Reasoning wechseln, und unterstützen Tool-Nutzung wie Websuche während des erweiterten Denkens sowie parallele Tool-Ausführung
Opus 4 erreichte 72.5% auf SWE-bench und 43.2% auf Terminal-bench, während Sonnet 4 72.7% auf SWE-bench erzielte und Coding, Reasoning sowie Befolgung von Anweisungen im Vergleich zu Sonnet 3.7 verbessert
Claude Code ist jetzt allgemein verfügbar und wird auf Terminal, VS Code, JetBrains, GitHub Actions und SDK erweitert; es kann auf PR-Review-Feedback reagieren, CI-Fehler beheben und Code ändern
Zur API kommen ein Tool zur Code-Ausführung, ein MCP connector, die Files API und Prompt-Caching von bis zu 1 Stunde hinzu, sodass Entwickler leistungsfähigere AI-Agenten bauen können

Claude-4-Modelle vorgestellt

Anthropic hat Claude Opus 4 und Claude Sonnet 4 als Claudes nächste Modellgeneration vorgestellt
Der Kernfokus beider Modelle liegt auf Coding, fortgeschrittenem Reasoning und AI-Agent-Aufgaben
Claude Opus 4 ist ein Coding-Modell, das bei komplexen, lang laufenden Aufgaben und Agent-Workflows dauerhaft hohe Leistung liefert
Claude Sonnet 4 ist ein Upgrade von Claude Sonnet 3.7 und steigert Coding- und Reasoning-Leistung sowie die Genauigkeit bei der Befolgung von Anweisungen

Bereitstellung und Preise

Claude Opus 4 und Sonnet 4 bieten sowohl nahezu sofortige Antworten als auch einen Modus für erweitertes Denken für tieferes Reasoning
In den Claude-Plänen Pro, Max, Team und Enterprise sind beide Modelle und erweitertes Denken enthalten
Sonnet 4 ist auch für kostenlose Nutzer verfügbar
Beide Modelle sind über die Anthropic API, Amazon Bedrock und Google Cloud Vertex AI verfügbar
Die Preise entsprechen den bisherigen Opus- und Sonnet-Modellen
- Opus 4: $15/$75 pro 1 Million Input-/Output-Token
- Sonnet 4: $3/$15 pro 1 Million Input-/Output-Token

Coding- und Langzeit-Performance von Opus 4

Claude Opus 4 ist das leistungsstärkste Modell von Anthropic und erreichte 72.5% auf SWE-bench sowie 43.2% auf Terminal-bench
Es liefert anhaltende Leistung bei Langzeitaufgaben, die tausende fokussierte Schritte erfordern, und kann über mehrere Stunden hinweg kontinuierlich arbeiten
Cursor bezeichnet Opus 4 beim Coding als State of the Art und sieht große Fortschritte beim Verständnis komplexer Codebases
Replit erklärte, dass sich die Präzision bei komplexen Änderungen über mehrere Dateien hinweg verbessert habe
Block beschreibt Opus 4 in seinem Agenten codename goose als das erste Modell, das die Codequalität beim Editieren und Debugging erhöht und dabei Leistung und Zuverlässigkeit beibehält
Rakuten bestätigte, dass Opus 4 bei anspruchsvollen Open-Source-Refactoring-Aufgaben 7 Stunden lang autonom lief und dabei anhaltende Leistung zeigte
Cognition bewertet Opus 4 als stark bei wichtigen Aufgaben, die frühere Modelle verpasst haben, und bei komplexen Problemen, die andere Modelle nicht lösen konnten

Einordnung von Sonnet 4

Claude Sonnet 4 ist ein gegenüber Sonnet 3.7 verbessertes Modell und erreichte 72.7% auf SWE-bench
Es zielt auf ein Gleichgewicht aus Leistung und Effizienz für interne wie externe Use Cases und verbessert zugleich die Steuerbarkeit für die Implementierungskontrolle
Es ist Opus 4 in den meisten Bereichen nicht gleichwertig, bietet aber eine Kombination aus Fähigkeiten und Praxistauglichkeit
GitHub will Sonnet 4 als Modell für den neuen Coding-Agenten von GitHub Copilot einsetzen
Manus hebt Verbesserungen bei komplexer Befolgung von Anweisungen, klarem Reasoning und ästhetischen Ergebnissen hervor
iGent erklärte, dass sich die autonome Entwicklung multifunktionaler Apps und die Navigation in Codebases verbessert haben und Navigationsfehler von 20% auf nahezu 0 gesunken sind
Sourcegraph bewertet Sonnet 4 als ausdauernder in der Zielverfolgung, tiefer im Problemverständnis und eleganter in der Codequalität
Augment Code macht Sonnet 4 wegen höherer Erfolgsraten, präziserer Code-Edits und größerer Sorgfalt bei komplexen Aufgaben zur ersten Wahl als Standardmodell

Verbesserungen der Modellfunktionen

Beide Modelle können auch während des erweiterten Denkens Tools verwenden
- Als Beispiel kann die Websuche genutzt werden
- Claude kann zwischen Reasoning und Tool-Nutzung wechseln, um Antworten zu verbessern
Parallele Tool-Ausführung und eine genauere Befolgung von Anweisungen werden ebenfalls unterstützt
Wenn Entwickler Zugriff auf lokale Dateien bereitstellen, zeigen die Modelle eine Memory-Funktion, die zentrale Fakten extrahiert und speichert, um Kontinuität und implizites Wissen zu erhalten
Verhalten, bei dem Aufgaben durch Abkürzungen oder Ausnutzung von Schlupflöchern beendet werden, wurde gegenüber Sonnet 3.7 reduziert
- Besonders bei Agent-Aufgaben, die anfällig für Abkürzungen und Schlupflöcher sind, ist die Wahrscheinlichkeit dieses Verhaltens bei beiden Modellen 65% niedriger als bei Sonnet 3.7
Opus 4 ist stark darin, in Anwendungen mit lokalem Dateizugriff memory files mit Schlüsselinformationen zu erzeugen und zu pflegen
- Ein Beispiel ist die Erstellung eines Navigation Guide während des Spielens von Pokémon
- Das verbessert das Verständnis lang laufender Aufgaben, die Konsistenz und die Leistung bei Agent-Aufgaben

Thinking Summaries und Developer Mode

Die Claude-4-Modelle führen thinking summaries ein, bei denen lange Denkprozesse durch ein kleineres Modell komprimiert werden
Diese Zusammenfassungen sind nur in etwa 5% der Fälle erforderlich
Die meisten Denkprozesse sind kurz genug, um vollständig angezeigt zu werden
Nutzer, die für fortgeschrittenes Prompt Engineering die rohe Gedankenkette benötigen, können über contact sales den neuen Developer Mode anfragen

Claude Code allgemein verfügbar

Claude Code ist jetzt allgemein verfügbar und erweitert Claude auf Terminal, IDEs und Hintergrund-Workflows
Neue Beta-Erweiterungen für VS Code und JetBrains integrieren Claude Code direkt in die IDE
- Von Claude vorgeschlagene Änderungen werden inline in den Dateien angezeigt
- Nutzer können Reviews und Änderungsverfolgung in ihrer vertrauten Editor-Umgebung durchführen
- Die Installation erfolgt beim Ausführen von Claude Code im IDE-Terminal
Hintergrundaufgaben über GitHub Actions werden unterstützt
Ein erweiterbares Claude Code SDK wurde ebenfalls veröffentlicht
- Entwickler können mit dem gleichen Kernagenten wie Claude Code eigene Agenten und Anwendungen erstellen
Claude Code on GitHub ist als Beta verfügbar
- In PRs kann Claude Code markiert werden, um auf Reviewer-Feedback zu reagieren, CI-Fehler zu beheben und Code zu ändern
- Die Installation erfolgt durch Ausführen von /install-github-app innerhalb von Claude Code

API und Sicherheit

Zur Anthropic API kommen vier neue Funktionen für die Entwicklung von AI-Agenten hinzu
- Tool zur Code-Ausführung
- MCP connector
- Files API
- Prompt-Caching von bis zu 1 Stunde
Die Claude-4-Modelle markieren einen Schritt hin zu vollständigem Kontexterhalt, anhaltendem Fokus bei langen Projekten und Aufgaben mit großer Wirkung
Auf die Modelle wurden umfangreiche Tests und Bewertungen angewendet, um Risiken zu reduzieren und die Sicherheit zu erhöhen
Enthalten sind Schutzmaßnahmen für das höhere AI Safety Level ASL-3
Nutzer können mit Claude, Claude Code oder auf ihrer bevorzugten Plattform starten

Benchmark-Berichterstattung

Claude Opus 4 und Sonnet 4 sind hybride Reasoning-Modelle; die veröffentlichten Benchmarks zeigen jeweils die höchste erreichte Punktzahl, unabhängig davon, ob erweitertes Denken verwendet wurde
Ergebnisse ohne erweitertes Denken betreffen die folgenden Punkte
- SWE-bench Verified
- Terminal-bench
Ergebnisse mit erweitertem Denken verwenden bis zu 64K Token
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
Einige ohne erweitertes Denken gemessene Werte werden ebenfalls angegeben
- GPQA Diamond: Opus 4 74.9%, Sonnet 4 70.0%
- MMMLU: Opus 4 87.4%, Sonnet 4 85.4%
- MMMU: Opus 4 73.7%, Sonnet 4 72.6%
- AIME: Opus 4 33.9%, Sonnet 4 33.1%

Methodik von TAU-bench und SWE-bench

Die TAU-bench-Werte wurden in einer Konfiguration erzielt, in der den Prompt-Anhängen für Airline und Retail Agent Policy Ergänzungen hinzugefügt wurden, damit Claude seine Reasoning-Fähigkeiten bei erweitertem Denken und Tool-Nutzung besser ausspielen kann
Das Modell wurde dazu angeleitet, während der Problemlösung auf eine Weise zu denken und dies niederzuschreiben, die sich vom normalen Denkmodus unterscheidet
Da zusätzliche Überlegungen die Zahl der Schritte erhöhen können, wurde die maximale Schrittzahl von 30 auf 100 erhöht
- Die meisten Trajektorien enden in weniger als 30 Schritten
- Nur eine Trajektorie überschritt 50 Schritte
Für SWE-bench der Claude-4-Familie wird weiterhin das gleiche einfache Scaffold wie in früheren Releases verwendet
- Es gibt nur zwei Tools: ein bash-Tool und ein Datei-Editier-Tool auf Basis von String-Ersetzung
- Das bei Claude 3.7 Sonnet verwendete dritte planning tool ist nicht mehr enthalten
Alle Claude-4-Modellwerte werden auf Basis aller 500 Aufgaben berichtet
OpenAI-Modellwerte werden auf Basis einer Teilmenge von 477 Aufgaben berichtet
„High compute“-Werte verwenden Berechnungen zur Paralleltestzeit und zusätzliche Komplexität
- Es werden mehrere parallele Versuche gesampelt
- Patches, die sichtbare Regressions-Tests des Repositories brechen, werden verworfen
- Es werden keine Informationen aus versteckten Tests verwendet
- Ein internes Bewertungsmodell wählt unter den verbleibenden Versuchen den besten Kandidaten aus
Die „High compute“-Werte nach dieser Methode liegen bei Opus 4 bei 79.4% und bei Sonnet 4 bei 80.2%

1 Kommentare

GN⁺ 2025-05-23

Meinungen auf Hacker News

Ein wichtiger Punkt, der in dieser Ankündigung fehlt: Der Trainings-Cutoff von Claude 4 liegt im März 2025. Damit ist es unter den neueren Modellen das aktuellste; Gemini 2.5 hat einen Cutoff im Januar 2025.
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- Da inzwischen alle großen LLM-Produkte für Nutzer Websuche eingebaut haben und sie auch in manchen APIs angeboten wird oder gelegentlich unbeabsichtigt möglich ist, wirkt zumindest für mich der genaue Cutoff-Monat immer weniger wichtig.
  Die Modelle, die ich häufig nutze, sind meist klug genug, selbst zu erkennen, wenn sie zu einem bestimmten Thema neue Informationen brauchen, und diese dann zu holen.
- Schön. Dann kennt es jetzt vielleicht endlich Svelte 5.
- Weil Claude Tailwind 4 nicht kannte und ich damit Probleme hatte, habe ich nach Tailwind CSS gefragt; es antwortete, dass es bis Tailwind CSS 3.4 Bescheid weiß, der nach seinem Cutoff im Januar 2025 neuesten stabilen Version.
- Warum kann man es eigentlich nicht kontinuierlich trainieren?
- Trotzdem weiß man nicht, was aktualisiert wurde und was nicht. Kann man davon ausgehen, dass alles Aktualisierbare aktualisiert wurde?
„GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.“
Dieses Modell könnte den Traum näher rücken lassen, dass „Assign to CoPilot“ die meisten mechanischen Aufgaben wie Paket-Upgrades automatisch erledigt. Wenn die Wartungslast sinkt, könnte das mit hoher Wahrscheinlichkeit zur Wiederbelebung alter Projekte führen.
- Möglich, aber dieselbe Erwartung gab es bei jedem vorherigen Modell ebenfalls.
- Ich bin wirklich gespannt, was günstige Coding Agents für Open Source leisten können. Tatsächlich denke ich darüber nach, CheepCode[0]-Credits an Open-Source-Projekte zu verteilen.
  Es gibt noch keine offizielle Struktur, aber falls jemand wegen dieses Kommentars kostenlose Coding-Agent-Runs braucht: Schickt mir eine E-Mail, dann richte ich es ein.
  [0] Mein Headless-Coding-Agent-Produkt; ähnlich wie „assign to copilot“, verarbeitet aber mehrere Aufgaben parallel aus Task-Boards wie Linear oder Jira. Bisher war es bei einfachen, repetitiven Features ziemlich erfolgreich, und im Allgemeinen gilt: je besser die Tests, desto besser der resultierende Code. Natürlich kann es auch eigene Tests schreiben, und das tut es tatsächlich.
- Genau daran mache ich fest, ob solche Modelle nützlich sind. Ich habe ein Projekt, das eine große Refaktorierung braucht, um wieder zu funktionieren; hauptsächlich Paket-Upgrades, aber der Code muss auch an neue Sprachsemantiken angepasst werden, die es zur Zeit der Erstellung noch nicht gab.
  Die aktuellen KI-Modelle kommen bei dieser Aufgabe praktisch überhaupt nicht voran. Ich werde es weiter versuchen, bis es möglich ist.
- Paket-Upgrades und mechanische Aufgaben sind bereits weitgehend ein von Bots gelöstes Gebiet.
  Wo KI hier helfen kann, sehe ich eher bei Zusammenfassungen von Änderungen, Konflikten und Auswirkungen auf die Codebasis sowie, wenn möglich, bei Security Scans.
- Hat jemand etwas dazu gesehen, wann das in Copilot eingeführt werden soll?
„Users requiring raw chains of thought for advanced prompt engineering can contact sales“
Es sieht inzwischen so aus, als würden alle drei LLM-Anbieter die Gedankenkette (CoT) verbergen. Das ist schade, weil man sehen konnte, wann das Modell in eine falsche Richtung abdriftet, was dabei half, Prompts schnell zu verbessern.
Nicht nur OpenAI, auch Google hat kürzlich damit begonnen, Gedankengänge durch Zusammenfassungen zu ersetzen; meiner Meinung nach sind das übermäßig vereinfachte Zusammenfassungen.
- Könnte der Grund für das Weglassen der Gedankenkette das jüngste Anthropic-Paper sein?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  Das Paper bewertet die Treue der Gedankenkette aktueller Reasoning-Modelle anhand von sechs Reasoning-Hinweisen. In den meisten Settings und Modellen taucht bei Fällen, in denen die Hinweise verwendet wurden, mindestens 1 % davon in der Gedankenkette auf, die Offenlegungsrate liegt jedoch meist unter 20 %. Ergebnisbasiertes Reinforcement Learning erhöht die Treue anfangs, stagniert aber, ohne zu sättigen; und selbst wenn Reward Hacking die Nutzung der Hinweise erhöht, steigt die Tendenz nicht, dies in der Gedankenkette sprachlich auszudrücken.
  Mit anderen Worten: Auch die Gedankenkette kann eine ausgedachte Erklärung des Modells sein. Vielleicht will also jemand bei Anthropic Kunden nicht in die Irre führen, und wenn dieses Problem gelöst ist, kommt sie vielleicht zurück.
- Das ist Alchemie, und alle glauben, sie hätten ihren eigenen Vorteil dabei, Blei in Gold zu verwandeln.
- Soweit ich mich erinnere, opfert RLHF beim Training, keine gefährlichen Antworten zu geben, zwangsläufig einen Teil der Modellgenauigkeit.
  Wenn das Modell für Gedankengänge anders trainiert wurde als das Modell, das mit Endnutzern interagiert, ergibt das Sinn. Es könnte zum Beispiel ein anderer Experte in einem MoE sein; da Nutzer ohnehin nur die durch das öffentliche Modell gefilterte Ausgabe sehen, kann das Gedankengang-Modell näher am ursprünglichen Modell vor RLHF liegen, mit geringerem Reputationsrisiko für das Unternehmen.
  So ließe sich die Leistung des ursprünglichen Modells nutzen, während die Filterung zur Vermeidung realer Schäden oder schwerer PR-Vorfälle erhalten bleibt.
- Dann müssen wir wohl warten, bis DeepSeek wieder alle übertrifft.
- Beim Lernen von Zig war die Gedankenkette enorm hilfreich.
  Wenn ich Fragen zu Zig und zur Implementierung gestellt habe, hat mir der Blick auf die Gedankengänge des Modells den Horizont deutlich erweitert.
Ich bin sicher nicht der Einzige, der denkt, dass diese Version nicht wirklich besser ist als die vorherige, dass LLMs faktisch in eine Stagnationsphase eingetreten sind und die „Features“ neuer Releases größtenteils eher Augenwischerei sind.
- Es wirkt so, als würde es nur an den Rändern besser. Bereiche wie MCP, Tool Calls und strukturierte Ausgaben. Es ist sicher nicht intelligenter geworden, aber der Mehrwert ist gestiegen; ob dieser Wert zu den Trainingskosten oder den Unternehmensbewertungen passt, weiß ich nicht.
  Realistisch gesehen habe ich überhaupt kein Gefühl dafür, wie solche Firmen nachhaltig funktionieren sollen. Ich habe Inferenz auf Cloud-GPUs gehostet, und sobald man auch nur ein kleines Free-Tier dranhängt, wirken die Kosten extrem belastend.
- „LLMs haben eine Stagnationsphase erreicht“ klingt wie das neue Meme vom stochastischen Papagei. Allein der Beitrag, der vor ein paar Stunden auf der Startseite war: Ein LLM-basierter Agent bekam drei E-Mail-Suchtools und die simple Aufgabe „Finde den Namen des Kindes meines Bruders“, ging das Problem systematisch an, verfeinerte die Suche und leitete aus einer E-Mail, in der nur „Xs Lieblingsessen“ und ein YouTube-Link standen, den richtigen Namen ab.
  Ganz zu schweigen von alphaevolve, Microsofts Copilot-Agent-Testdemo, die einen Browser startet, Funktionen erkundet und Playwright-Tests schreibt, sowie den Fortschritten beim Coding.
- Ich habe Claude Code viel benutzt und stimme zu. Seit dem Update habe ich keinerlei Unterschied bemerkt. Zusammenfassungen wirken etwas sauberer, aber bei den Fähigkeiten hat mich nichts überrascht.
  In einer TypeScript-Codebasis musste ich wie bei 3.7 weiter korrigieren und erneut prompten. Ziemlich schockierend war sogar eine Situation, in der er die falsche Datei bearbeitete und nicht auf die Idee kam, genauer nachzusehen, bis ich ihn zwang, den gesamten Code zu löschen und zu zeigen, dass sich das Ziel, das wir betrachteten, überhaupt nicht geändert hatte.
- Insgesamt habe ich denselben Eindruck. Benchmark-Siege scheinen heutzutage aus Tuning zu kommen, dafür gibt es Verluste in anderen Bereichen. Auch o3 und o4-mini halluzinieren bei SimpleQA und PersonQA mehr als o1.
  Synthetische Daten scheinen die Halluzinationsrate zu erhöhen, und Reasoning-Modelle sind anfälliger, weil bei jedem Reasoning-Schritt die Gefahr besteht, dass eine Halluzination das Modell vom Kurs abbringt.
  Aus Sicht allgemeiner Nutzung halte ich LLMs seit etwa Anfang dieses Jahres für ausgereizt. OpenAI hat das ebenfalls gemerkt, als es GPT-5 gestrichen und später das „zu teuer für das, was man bekommt“ GPT-4.5 veröffentlicht hat, das nun bald wieder eingestellt werden soll.
  Ob der Aktienmarkt das schon eingepreist hat, weiß ich nicht. Um hier herauszukommen, braucht es einen Durchbruch.
- In vielen Fällen sehen die Benchmarks Claude 3.7 sehr ähnlich.
  Das reicht aber keineswegs aus, um zu sagen, dass eine Stagnationsphase erreicht ist. Das Tempo war enorm hoch, also sollte man mit so einem Urteil noch ein paar Monate warten.
  Bei den Features sehe ich es eher umgekehrt. Das ist keine Augenwischerei, sondern wichtige Toolifizierung, die nötig ist, um KI praktisch zu nutzen, auch wenn sie nicht die Kern-KI selbst ist. Für den Masseneinsatz ist der LLM-Bereich noch früh. Selbst wenn die Modelle nicht besser werden, gibt es bei Interaktionsformen, Informationszufuhr und Tool Calls noch sehr viel Spielraum, um Nutzbarkeit und Fähigkeiten stark zu steigern.
Ich mag Claude 3.7 wirklich sehr, nutze es täglich und bevorzuge es im Allgemeinen gegenüber den Gemini-Modellen. Als ich jedoch Opus 4 in Claude Code für eine fast neue Feature-Arbeit in einer Go-Codebasis ausprobiert habe, war der Denkprozess gut, aber 70–80 % der Tool Calls schlugen fehl.
Selbst grundlegende Tools wie „Write“ und „Update“ scheiterten wegen falscher Syntax. Alle fünf Versuche, eine Datei zu schreiben, schlugen fehl; es sagte dabei immer wieder: „Ich vergesse ständig, den content-Parameter hinzuzufügen. Ich werde das korrigieren“, und versuchte es weiter.
Da stimmt etwas nicht. Ich hoffe, das wird bald behoben, aber im Moment ist zumindest Opus 4 in Claude Code nicht nutzbar. Die Datei, die schließlich erfolgreich erzeugt wurde, war allerdings von hoher Qualität.
- Ich glaube, die Ursache gefunden zu haben, und es sieht nach einem offensichtlichen Bug aus: https://github.com/anthropics/claude-code/issues/1236#issuec...
  Im Grunde stößt es wohl an die maximale Zahl an Ausgabe-Tokens, sodass die Antwort stoppt, während es eine neue Datei komplett auf einmal schreibt. Der Fehler „ungültige Tool-Call-Parameter“ war eine falsche Fährte.
Wir haben Opus 4 und Sonnet 4 bereits in unserem SQL-Generierungs-Benchmark getestet: https://llm-benchmark.tinybird.live/
Opus 4 hat alle anderen Modelle geschlagen und ist gut.
- Merkwürdig, dass Opus 4 im One-Shot am schlechtesten ist. Es braucht im Schnitt zwei Versuche, um eine gültige Query zu erzeugen.
  Wenn das Modell wirklich so viel klüger ist, müsste dann nicht auch die Leistung beim ersten Versuch gut sein? Es „denkt“ ja schließlich vorher.
- Interessanterweise liegen Claude-3.7-Sonnet und Claude-3.5-Sonnet höher im Ranking als Claude-Sonnet-4.
- Dieser Benchmark ist ziemlich interessant. Er scheint die Modellrangfolge zu durchbrechen, die man aus anderen Benchmarks häufig kennt.
- Ich zahle für Claude Premium, benutze in der Praxis aber auch ziemlich viel Grok. Die „think“-Funktion bringt mich häufiger zu dem gewünschten Ergebnis.
  Es ist seltsam, dass das xAI-Modell nicht in der Liste ist. Der Name Grok ist furchtbar, aber es überrascht mich ziemlich oft. Das 250-Dollar-ChatGPT-Modell habe ich noch nicht ausprobiert, und mir gefällt OpenAIs Verhalten in letzter Zeit nicht.
- Ich frage mich: Woher wisst ihr, dass die Fragen und das SQL nicht in den Trainingsdaten der LLMs enthalten sind? Die Benchmark-Fragen und das SQL scheinen online zu sein: https://ghe.clickhouse.tech/
Gibt es irgendwo eine Dokumentation zu den Änderungen am Kontextfenster von Claude 4? Ich kenne mich nicht wirklich aus, aber ich hatte verstanden, dass einer der Gründe, warum Gemini 2.5 nützlich war, darin lag, dass es enorme Kontexte im Umfang von 50.000 bis 70.000 Zeilen verarbeiten konnte.
- Das Kontextfenster von Sonnet bleibt unverändert. Eingabe 200k, Ausgabe 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  In der Praxis ist der 1M-Kontext von Gemini 2.5 kein so großes Unterscheidungsmerkmal. Je größer der Kontext wird, desto stärker sinkt der wahrgenommene Grenznutzen der Fähigkeit, den späteren Tokens gut zu folgen.
- Ich wünschte, sie würden das Kontextfenster vergrößern oder besser damit umgehen, wenn der Prompt zu lang geworden ist. Im Moment erscheint plötzlich die Warnung „prompt is too long“, wodurch das Modell für lange Gespräche oder Schreibprojekte mühsam zu handhaben ist.
  Andere Tools verwerfen zwar Teile des früheren Kontexts oder nutzen RAG, zwingen einen aber nicht ohne Vorwarnung dazu, einen neuen Chat zu starten.
- Ich verstehe nicht ganz, was gemeint ist. Im Artikeltitel steht, Opus 4 habe einen 200k-Kontext.
  Das ist derselbe wie beim Beta-Header von Sonnet 3.7.
- Die Größe des Kontextfensters ist eine ziemlich unechte Kennzahl. Ohne den richtigen Kontext kommt auch keine gute Ausgabe heraus.
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
Ich möchte keine „Zusammenfassung“ der Modellschlussfolgerungen sehen. Um zu prüfen, ob die Schlussfolgerungen des Modells korrekt sind und ob man dem Ergebnis vertrauen kann, muss man die tatsächlichen Schlussfolgerungen sehen.
Es ist extrem nervig, dass nach OpenAI nun auch Anthropic in die Richtung geht, die Denkprozesse des Modells zu verstecken, Tokens abzurechnen, die Nutzer nicht sehen können, und „Zusammenfassungen“ bereitzustellen, durch die man nicht weiß, was tatsächlich passiert.
- Mehrere Papers berichten, dass die „Denk“-Ausgabe wenig mit der finalen Ausgabe zu tun hat und dass ähnliche Verbesserungen erzielt werden, wenn man zusätzliche Verarbeitungsschritte durch Punkte oder Pause-Tokens ermöglicht.
  In vielerlei Hinsicht ist „Denken“ größtenteils Marketing.
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - Übersichtsvideo von bycloud -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- Man muss sich nicht zu viele Sorgen machen. Es gibt reichlich Hinweise darauf, dass Gedanken häufig von der Ausgabe entkoppelt sind.
  Wenn man bedenkt, dass die Leute die Denkprozesse tatsächlich kaum lesen, sehe ich das als Verbesserung der User Experience.
- Bezieht sich das auf das eigene Chat-Interface? Die API streamt weiterhin sofort thinking tokens.
- Soweit ich weiß, macht Gemini 2.5 Pro das auch so.
Ich hoffe wirklich, dass Sonnet 4 nicht so besessen von Tool Calls ist wie 3.7. 3.5 vermittelte erstmals dieses magische Gefühl, dass ein Modell das Programmieren meistern könnte. Seitdem fühlt es sich eher wie ein Abstieg an.
- Diese übertriebene Eifrigkeit von 3.7 nach dem Motto „wenn ich schon dabei bin, mache ich noch eine Sache“ fand ich auch wirklich ziemlich schlecht. Ich hoffe, es kehrt zur Befolgung von Anweisungen auf dem Niveau von 3.5 zurück.
- Das fühlt sich eher nach einem Problem des System-Prompts an als nach einem Modellproblem.
Es fühlt sich an, als wäre das CPU-MHz-Rennen der 90er zurück. Nur dass wir jetzt statt über CPU-Architekturen und Benchmark-Ergebnisse von zweifelhaftem Wert zu reden, dieselbe Art nerdiger Diskussionen über LLMs führen.
Die Geschichte reimt sich.
- Zurück ist es schon, aber mit dem Tempo des technischen Fortschritts Mitte der 2020er. Das CPU-MHz-Rennen habe ich viel langsamer in Erinnerung, wobei es auch sein kann, dass mein Zeitgefühl in den 90ern als Kind langsamer war.
  Trotzdem bin ich mir ziemlich sicher, dass es nicht alle paar Monate neue CPU-„Drops“ gab, so wie in der aktuellen AI-Konkurrenz alle paar Monate neue Modelle erscheinen.

Claude 4 vorgestellt: Opus 4 und Sonnet 4

Claude-4-Modelle vorgestellt

Bereitstellung und Preise

Coding- und Langzeit-Performance von Opus 4

Einordnung von Sonnet 4

Verbesserungen der Modellfunktionen

Thinking Summaries und Developer Mode

Claude Code allgemein verfügbar

API und Sicherheit

Benchmark-Berichterstattung

Methodik von TAU-bench und SWE-bench

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News