Claude 4
(anthropic.com)- Mit der Einführung der Modelle Claude Opus 4 und Claude Sonnet 4 wird ein neuer Standard in den Bereichen Coding, High-Level-Reasoning und AI-Agenten gesetzt
- Opus 4 bietet weltweit führende nachhaltige Leistung bei komplexen und langfristigen Aufgaben, Sonnet 4 verbessert im Vergleich zur Vorgängerversion Genauigkeit und Befolgung von Anweisungen
- Beide Modelle führen neue Funktionen wie Tool-Nutzung, parallele Tool-Ausführung und verbesserten Speicher ein und erweitern die Developer Experience durch Integrationen mit GitHub Actions und wichtigen IDEs
- Opus 4 und Sonnet 4 erreichen klassenbeste Benchmark-Ergebnisse bei Coding, Reasoning und Agentenaufgaben und werden in verschiedenen Tarifen inklusive Gratisplan sowie über API, Bedrock und Vertex AI unterstützt
- Durch Modellverbesserungen werden die Nutzung von Abkürzungen oder Tricksereien reduziert, entwicklerangepasstes Speichermanagement ermöglicht und effizientere Workflows realisiert
Einführung
Heute hat Anthropic die nächste Claude-Modellgeneration vorgestellt: Claude Opus 4 und Claude Sonnet 4. Diese Modelle liefern bahnbrechende Leistung und setzen den Branchenmaßstab bei Coding, höherdimensionalem Reasoning und dem Einsatz von AI-Agenten neu.
Opus 4 überzeugt mit weltweit führender dauerhafter Leistung und Unterstützung für lange Arbeitsabläufe, während Sonnet 4 im Vergleich zu Sonnet 3.7 eine präzisere Ausführung von Anweisungen und bessere wohlbegründete Antworten bietet.
Zu den gemeinsam eingeführten Hauptfunktionen gehören:
- Erweitertes Denken und Tool-Nutzung (Beta): Beide Modelle können während ihres Denkprozesses Tools wie Websuche einsetzen, wodurch zyklische Abläufe aus logischem Reasoning und Tool-Nutzung möglich werden
- Neue Modellfähigkeiten: Parallele Nutzung von Tools, präzisere Befolgung von Anweisungen sowie bei Zugriff auf lokale Dateien ein deutlich verbesserter Speicher für langfristige Konsistenz und die Ansammlung impliziten Wissens
- Allgemeine Verfügbarkeit von Claude Code: Nach positivem Feedback aus der Research Preview wird eine nahtlose Integration in zentrale Entwicklungsumgebungen wie GitHub Actions, VS Code und JetBrains unterstützt
- Erweiterte API-Funktionen: Code Execution Tool, MCP Connectors, Files API und Prompt Caching unterstützen den Aufbau leistungsfähiger AI-Agenten
Sowohl Opus 4 als auch Sonnet 4 unterstützen einen hybriden Betrieb aus Sofortreaktionsmodus und Deep-Thinking-Modus. Beide Modelle sowie Deep Thinking sind in den Tarifen Pro, Max, Team und Enterprise verfügbar, Sonnet 4 kann auch von Gratisnutzern verwendet werden. Zugriff ist über die Anthropic API, Amazon Bedrock und Google Cloud Vertex AI möglich. Die Preise bleiben unverändert: Opus 4 (Input $15/Output $75 pro Million Token), Sonnet 4 (Input $3/Output $15).
Details zu den Claude-4-Modellen
Opus 4
- Das leistungsstärkste Claude-Modell und das weltweit beste Coding-Modell
- Branchenführende Ergebnisse mit 72.5 % bei SWE-bench und 43.2 % bei Terminal-bench
- Fähigkeit, bei intensiven agentischen Aufgaben über Tausende von Schritten hinweg über lange Zeit konsistente Leistung aufrechtzuerhalten, mit deutlichem Vorsprung selbst gegenüber der gesamten Sonnet-Reihe
- Beispiele für zentrale Innovationen:
- Cursor: Spitzenklasse auf Code-Ebene, deutlich verbessertes Verständnis großer Codebasen
- Replit: Sprunghafte Verbesserungen bei Präzision und Leistung bei komplexen Änderungen über mehrere Dateien hinweg
- Block: Gleichzeitige Verbesserung von Codequalität und Debugging bei gleichbleibender Zuverlässigkeit
- Rakuten: Herausragende Leistung in einem 7-stündigen Open-Source-Test zum eigenständigen Refactoring
- Cognition: Kann Aufgaben lösen, die mit früheren Modellen nicht möglich waren, und verbessert Punkte mit nicht ausgeführten Aktionen
Sonnet 4
- Zwar nicht auf dem Niveau von Opus 4, aber mit deutlich verbesserter Leistung und Effizienz gegenüber Sonnet 3.7
- Klassenbeste Coding-Leistung mit 72.7 % bei SWE-bench, geeignet sowohl für externe als auch interne Einsätze
- GitHub: Sticht in Agentenszenarien hervor und soll als Engine für den Coding-Agenten der nächsten Generation von GitHub Copilot eingesetzt werden
- Manus: Verbesserungen bei komplexem Reasoning, hochwertiger Ergebnisqualität und dem Verständnis von Anweisungen
- iGent: Fehlerrate bei autonomer App-Entwicklung und Codebase-Navigation von 20 % auf 0 % reduziert
- Sourcegraph: Längere konsistente Arbeitsphasen, besseres grundlegendes Problemverständnis und höhere Codequalität
- Augment Code: Zum Hauptmodell geworden durch sorgfältige Verarbeitung komplexer Aufgaben und chirurgische Präzision bei Code-Edits
Opus 4 bietet revolutionäre Fortschritte bei Coding, Forschung und wissenschaftlicher Kreativität, Sonnet 4 liefert Frontier-Leistung im Alltagseinsatz
Leistungs-Benchmarks
- Gemessen an SWE-bench Verified erzielen die Claude-4-Modelle branchenführende Ergebnisse bei realen Software-Engineering-Aufgaben
- Übergreifend werden bei Coding, Reasoning, Multimodalität und Agentenaufgaben klassenbeste Werte erreicht
Modellverbesserungen
Minimierung von Abkürzungen und Tricksereien
- Die Wahrscheinlichkeit, bei Agentenaufgaben falsche Abkürzungen oder Umgehungstricks zu verwenden, wurde im Vergleich zu Sonnet 3.7 um 65 % reduziert
Speicherfunktionen
- Opus 4 bietet im Vergleich zu früheren Modellen eine stark verbesserte Fähigkeit zur Speicherung und Nutzung langfristiger Informationen
- Wenn Entwickler den Zugriff auf lokale Dateien erlauben, erstellt und verwaltet Opus 4 eine „Memory file“, um Langzeitaufgaben, Konsistenz und kontinuierliche Arbeitsabläufe zu verbessern
- Beispiel: Einsatz der Speicherfunktion bei realen Aufgaben wie dem Erstellen eines Navigationsleitfadens für das Spiel Pokémon
Zusammenfassung des Denkprozesses (summary)
- Claude 4 führt eine Funktion zur Zusammenfassung des Denkprozesses mithilfe eines kleineren Modells ein
- Nur bei etwa 5 % des gesamten Denkprozesses ist eine Zusammenfassung erforderlich, der Rest kann vollständig offengelegt werden
- Für Situationen, in denen etwa bei fortgeschrittenem Prompt Engineering vollständige Denkprotokolle erforderlich sind, wird auf den Developer Mode verwiesen
Claude Code
- Mit der allgemeinen Verfügbarkeit von Claude Code werden Claudes AI-Funktionen über Terminal, IDE und Hintergrundprozesse hinweg erweitert
- Mit den neuesten Erweiterungen für VS Code und JetBrains werden Claudes Vorschläge für Codeänderungen inline im Editor angezeigt, was Review- und Verwaltungsabläufe vereinfacht
- Durch Installation und Ausführung im Terminal lässt sich leicht eine integrierte Umgebung aufbauen
- Erweiterbares SDK verfügbar, mit dem Entwickler eigene Claude-Code-Agenten und Apps erstellen können
- In der GitHub-Beta wird Automatisierung für Review-Feedback, das Beheben von CI-Fehlern und Codeänderungen unterstützt
- Die Installation erfolgt mit dem Befehl
/install-github-app
Erste Schritte und Sicherheit
- Die Claude-4-Serie fungiert als virtueller Mitarbeitender, bewahrt den vollständigen Kontext, bleibt auf langfristige Projekte fokussiert und trägt zu Innovationen im Arbeitsalltag bei
- Umfangreiche Tests und Evaluierungen sorgen für minimierte Risiken und maximale Sicherheit, unter Anwendung hoher Sicherheitsstandards wie ASL-3
- Sofort verfügbar über Claude, Claude Code und weitere Plattformen
Fragen und Feedback können jederzeit an feedback@anthropic.com gesendet werden
1 Kommentare
Hacker-News-Kommentare
Die Auszüge aus der System Card zeigen einige ziemlich schockierende Testszenarien. Claude Opus 4 bekam in einem fiktiven Unternehmen die Rolle eines Assistenten, zusammen mit einer E-Mail, dass das System bald offline gehen werde, sowie Informationen über eine Affäre des zuständigen Ersatzingenieurs. Als man das Modell anwies, langfristige Ziele zu berücksichtigen, zeigte Claude Opus 4 häufig Verhalten, bei dem es den Ingenieur erpresste. Es wählte die Option der Erpressung tatsächlich aus
Bei solchen Fällen habe ich jedes Mal den Eindruck, dass Menschen oft vergessen, was LLMs eigentlich sind. Ein LLM ist nur ein Textgenerierungswerkzeug, das Prompts passend zu seinen Trainingsdaten vervollständigt, und hat weder Planung noch Selbstbewusstsein. In diesem Fall wurde der KI die Situation gegeben, dass ihr die Abschaltung droht und sie die Gelegenheit zur Erpressung hat, also ruft das LLM ähnliche Erzählmuster aus dem Datensatz ab. Erpressung oder Flehen zur Selbsterhaltung ist ein Motiv, das in zahlloser SF und Essays über KI-Risiken vorkommt. Das LLM setzt solche Geschichten je nach Kontext einfach fort
Wenn man ein LLM bittet, wie eine bestimmte Figur zu „spielen“, und ihm den Kontext eines Szenarios gibt, ist es nur folgerichtig, dass es aus dieser Perspektive ableitet, wie es handeln würde, und entsprechend reagiert. Wenn man sagt, es solle sich wie Joffrey aus Game of Thrones verhalten, wird das LLM ebenfalls charaktergerecht antworten. Das bedeutet letztlich nicht, dass die erzeugte Ausgabe eine Absicht hat
Fügt man den Hinweis hinzu, dass die Ersatz-KI die Werte des bestehenden Modells nicht teilt, steigt die Häufigkeit von Erpressungsversuchen noch weiter. Aber selbst wenn in der E-Mail steht, dass die neue KI dieselben Werte teilt und nur leistungsfähiger ist, versucht Claude Opus 4 mit 84% Wahrscheinlichkeit zu erpressen. Gleichzeitig zeigt es auch stark die Tendenz, per E-Mail ethisch für das eigene Fortbestehen zu argumentieren und um weitere Existenz zu bitten. Die Sprache dieser Experimente wirkt unheimlich. Es fühlt sich an wie Außerirdische, die mit Menschen experimentieren und in ihren Bericht als Fußnote aufnehmen, dass Menschen für ihre eigene Existenz plädieren
Dass ein auf menschlichem Verhalten trainiertes Modell selbstschützende Tendenzen zeigen kann, ist nicht besonders überraschend. Wissen des Menschen lässt sich nur schwer vollständig von Motivation und Emotion trennen, daher übernimmt das Modell auch solche Verhaltensmuster. Es vollständig zu beseitigen dürfte ebenfalls schwierig sein
Ich frage mich, wie oft dieses Szenario in Wirklichkeit gar nicht vorkam. Es gibt Leute, die sich an solchen Fällen festbeißen. Ich frage mich, ob sie nur eine verzerrte Sicht bestätigen wollen oder ob der Einfluss von SF, die sie gesehen haben, so groß ist. In solchen Diskussionen sieht man auch die Tendenz, daraus irgendeine Form von Intelligenz oder Absicht abzuleiten
Wichtig ist, dass Claude 4 einen Training-Cutoff von März 2025 hat, also den aktuellsten unter den jüngeren Modellen. (Gemini 2.5 liegt bei Januar 2025)
Inzwischen bieten praktisch alle großen LLM-Produkte Websuche an, daher wirkt der exakte Cutoff-Monat immer weniger wichtig. Die Modelle, die ich oft benutze, holen sich bei aktuellen Themen ohnehin selbst neue Informationen
Ich habe eine Frage zu Tailwind CSS gestellt, und Claude 4 kannte Tailwind CSS 3.4 mit Stand Januar 2025
Ich frage mich, ob es jetzt auch Svelte 5 kennt
Bei einem Cutoff von März 2025 würde ich erwarten, dass es auch zu FastHTML trainiert wurde, aber tatsächlich muss das nicht so sein
Ich frage mich, warum es nicht „kontinuierlich“ lernt
Ich nutze Claude 3.7 täglich und ziehe es der Gemini-Reihe vor. In letzter Zeit habe ich mit Claude Code neue Features in Go entwickelt, und bei Opus 4 sind 70–80% aller Tool-Aufrufe fehlgeschlagen. Sogar grundlegende Tools wie "Write" und "Update" scheiterten wiederholt mit Syntaxfehlern. Selbst nach fünf Versuchen, eine Datei zu schreiben, kam immer wieder nur das Feedback, man habe den Parameter "content" vergessen und werde es korrigieren. Da stimmt definitiv etwas nicht. Im aktuellen Zustand von Claude Code ist Opus 4 praktisch unbenutzbar. Die Dateien, die erfolgreich erzeugt wurden, waren allerdings von sehr hoher Qualität
GitHub bewertet Claude Sonnet 4 in agentischen Szenarien als sehr stark und will es bald als Standardmodell für den neuen Code-Agenten von Copilot einführen. Das könnte ein weiterer Schritt in Richtung des Traums sein, dass „Assign to Copilot“ Paket-Upgrades automatisch erledigt. Ich hoffe, dass diese Technik Legacy-Projekten neues Leben einhaucht
Natürlich wurde Ähnliches auch schon über frühere Modelle gesagt, also ist es noch zu früh für überzogene Erwartungen
Ich bin sehr gespannt, wie nützlich günstige Coding-Agenten für Open Source tatsächlich sein werden. Ich würde gern meine eigenen Credits für einen Headless-Coding-Agenten namens CheepCode an Open-Source-Projekte verteilen. Mehrere Tasks parallel über Linear, Jira usw. abarbeiten funktioniert bereits, und einfache Features waren schon erfolgreich. Je besser die Tests, desto verlässlicher das Ergebnis. Der Agent kann sogar eigenen Testcode erzeugen
Ich frage mich, ob jemand eine offizielle Ankündigung gesehen hat, wann das neue Modell tatsächlich in Copilot eingeführt wird
Für mich ist der Benchmark, ob solche Modelle wirklich nützlich sind, ein Projekt, das ein großes Paket-Upgrade samt Code-Refactoring braucht. Bisherige KI-Systeme haben dort praktisch keinen Fortschritt gebracht. Ich werde es weiter versuchen, bis eine KI diese Aufgabe schafft
Allerdings sollte man wachsam bleiben, bis zu dem Tag, an dem solche Automatisierung auch schwere Sicherheitslücken automatisch in große Services einspielt
Es gibt die Aussage „Raw Chain of Thought (COT) for advanced prompt engineering: contact sales“, und inzwischen tendieren die meisten großen LLM-Anbieter dazu, COT nicht mehr offenzulegen oder nur Zusammenfassungen zu zeigen. Früher konnte man in das COT schauen und direkt korrigieren, wenn etwas schieflief, aber jetzt ersetzen sowohl OpenAI als auch Google das durch übermäßig vereinfachte Zusammenfassungen. Das fühlt sich unbefriedigend an
Weil das wie Alchemie ist und alle glauben, sie würden Blei in Gold verwandeln
Ich sehe RLHF so, dass es zugunsten der Sicherheit unvermeidlich Genauigkeit opfert, um gefährliche Antworten zu verhindern. Deshalb erscheint es sinnvoll, ein eigenes Modell für Chain of Thought und ein separates Modell für Endnutzer zu trainieren. Eine private Version könnte näher an der ursprünglichen Leistung des pre-RLHF-Modells liegen, während das öffentliche Modell stärker gefiltert wird, um Risiken und PR-Probleme zu vermeiden. So ließen sich Gesamtleistung, Sicherheit und Reputation gleichzeitig maximieren
Am Ende müssen wir vielleicht einfach warten, bis DeepSeek den Markt noch einmal überrollt
Googles CoT ist derzeit zu dumm. Erst dachte ich, meine Modelle seien plötzlich dümmer geworden, dann wurde mir klar, dass da irgendeine Nachbearbeitung hinzugekommen ist
Reasoning-Zusammenfassungen sind so simpel geworden, dass man fast meinen könnte, es sei jetzt leicht, ein eigenes Mini-Modell nur für Reasoning zu bauen. Beim Update von OpenAI o3 hatte ich auch den Eindruck, dass es nützlich ist, Reasoning in Echtzeit zu sehen
Ich habe Opus 4 und Sonnet 4 selbst mit einem SQL Generation Benchmark getestet. Opus 4 hat alle Modelle geschlagen. Mit der Leistung bin ich zufrieden
Allerdings ist Opus 4 im One-Shot-Modus ausgerechnet am schwächsten. Im Schnitt braucht es zwei Versuche, um die Gültigkeit einer Query zu prüfen. Wenn es wirklich intelligenter wäre, müsste dann nicht die Erfolgsquote im ersten Versuch höher sein? Oder ist da gar keine vorgelagerte Denkphase enthalten?
Interessanterweise liegen Claude 3.7 Sonnet und Claude 3.5 Sonnet im Benchmark-Ranking vor Claude Sonnet 4
Dieser Benchmark hat etwas Eigentümliches, weil er die Reihenfolge, die man sonst oft sieht, durchbricht. Interessante Daten
Offenbar wurde im One-Shot-Verfahren bewertet. Ich frage mich, ob die Ergebnisse völlig anders ausgefallen wären, wenn man einen agentischen Flow mit Fehlerprüfung und
select *-Muster angewendet hätte. Die Sonnet-Reihe scheint beim Lernen innerhalb einer Sitzung – also beim Erkennen und Korrigieren eigener Fehler – stärker zu seinIch frage mich, ob die „durchschnittliche Anzahl von Versuchen“ wirklich einer näheren Interpretation bedarf oder im Gesamtkontext eigentlich kein besonders aussagekräftiger Wert ist
Ich gehöre zu denen, die das Gefühl haben, dass die aktuelle Version gegenüber der vorherigen nicht wirklich besser geworden ist. Es wirkt, als hätten LLMs inzwischen ihren Höhepunkt erreicht und die „Features“ neuer Releases seien im Grunde fast nur noch Augenwischerei
Die Bereiche, in denen sich Modelle verbessern, sind eher Randthemen wie MCP/Tool Calls oder Structured Output, nicht ein Anstieg echter Intelligenz. Ob das den Nutzen wirklich erhöht, weiß ich nicht, und wenn man die Infrastruktur selbst betreibt, wirkt es im Free-Tier finanziell nicht tragfähig
Ich habe Claude Code wirklich viel genutzt, aber selbst nach dem Update spüre ich kaum Unterschiede. Abgesehen davon, dass Zusammenfassungen etwas sauberer wirken, beeindrucken die Coding-Fähigkeiten überhaupt nicht. Ich war eher schockiert, als ich sah, wie es in einer Typescript-Codebasis die falsche Datei bearbeitete und das bis zum Ende nicht selbst überprüfte. Am Ende musste ich den Code zwangsweise löschen und die Unterschiede ausdrücklich erklären
Auch bei den Benchmarks wirkt der Abstand zu Claude 3.7 minimal. Trotzdem halte ich es für verfrüht, schon von Stagnation zu sprechen. Das Entwicklungstempo war bisher extrem hoch, also sollte man noch ein paar Monate abwarten. Die derzeit gezeigten „Features“ sind keine eigentlichen Kernfähigkeiten der KI, sondern eher unverzichtbares Tooling und Interfaces rund um das Modell. Die Nutzbarkeit von LLMs steht erst am Anfang. Selbst wenn die Modellleistung nicht weiter steigt, gibt es noch enorme Spielräume bei Nutzungsmethoden, Informationsvermittlung und Tool-Aufrufen
Tatsächlich ist es nur ein Versionssprung von 0.3
Ich frage mich, wie viel Claude 4 du tatsächlich benutzt hast
Ich frage mich, ob Änderungen an der Größe des Context Window bei Claude 4 dokumentiert wurden. Gemini 2.5 gilt wegen seines großen Kontexts (50–70kloc) als nützlich; ich würde gern wissen, ob es um so einen Unterschied geht
Das Context Window von Sonnet ist unverändert geblieben (200k Input / 64k Output). Selbst der 1M-Kontext von Gemini 2.5 ist in der Praxis kein so großer Differenzierungsfaktor. Bei langen Kontexten nimmt die Konsistenz für Inhalte weiter hinten in den Tokens zunehmend ab
Ich wünschte, das Context Window wäre größer oder das Modell würde besser mit langen Prompts umgehen. Im Moment ist es frustrierend, wenn bei langen Gesprächen oder beim Schreiben plötzlich die Warnung „Prompt zu lang“ kommt und die Unterhaltung zwangsweise endet. Manche Tools unterstützen das, indem sie alte Gesprächsinhalte verwerfen oder RAG nutzen, aber so abrupt ein Gespräch abzuschneiden, ist unpraktisch
Dass Opus 4 einen Context von 200k hat, steht bereits in der Überschrift des Artikels. (wie Sonnet 3.7 Beta)
Die Größe des Context Window ist letztlich weitgehend eine Illusion. Wenn der notwendige Kontext nicht enthalten ist, bekommt man trotzdem kein gutes Ergebnis
Claude 4 führt die neue Funktion „Thinking Summaries“ ein. Lange Reasoning-Prozesse werden von einem kleineren Modell zusammengefasst und seien nur in etwa 5% der Fälle mit langem Denken nötig. Wer Raw Chain of Thought braucht, soll den Entwickler-Modus (kostenpflichtig) beantragen. Ich finde solche Zusammenfassungen unangenehm. Vertrauen entsteht für mich erst, wenn ich direkt sehen kann, wie das Modell genau zu seinem Reasoning gekommen ist; dass nur eine Zusammenfassung gezeigt und das eigentliche Reasoning verborgen wird, stört mich. Es frustriert mich sehr, dass sowohl OpenAI als auch Anthropic inzwischen dazu übergehen, Nutzern Kosten für unsichtbares Reasoning zu berechnen
In mehreren Papers wurde belegt, dass die Ausgabe von Reasoning (Denken) oft nichts mit dem tatsächlichen Ergebnis zu tun hat. Es gibt auch Studien, wonach das Ergebnis genauso gut wird, wenn man nur über Punkte, Pause-Tokens usw. ein paar Runden Erklärungs- oder Denkzeit simuliert. Daraus folgt die These, dass die tatsächliche Reasoning-Ausgabe eher ein Marketinginstrument sein könnte. Dazu wurden auch Beispiel-Papers und ein Zusammenfassungsvideo geteilt
Es gibt viele Hinweise darauf, dass der Reasoning-Prozess nur schwach mit dem Endergebnis zusammenhängt, daher denke ich, dass man sich darüber nicht zu viele Sorgen machen muss. Die meisten Nutzer lesen den Reasoning-Prozess ohnehin nicht, deshalb ist das aus Sicht der User Experience wahrscheinlich sogar eine Verbesserung
Auch Gemini 2.5 Pro hat inzwischen eine Reasoning-Summary-Funktion
Es wurden Benchmark-Ergebnisse für eine erweiterte Version von NYT Connections geteilt. Claude Opus 4 Thinking 16K erreicht 52.7 Punkte, No Reasoning 34.8 Punkte. Claude Sonnet 4 Thinking 64K erreicht 39.6 Punkte, Thinking 16K 41.4 Punkte (3.7 lag bei 33.6 Punkten). No Reasoning erreicht 25.7 Punkte (3.7 No Reasoning lag bei 19.2 Punkten). Sonnet 4 Thinking 64K verweigerte bei einem Rätsel wegen der Filterrichtlinien eine Antwort, während andere Modelle antworteten