Claude Opus 4.6 vorgestellt
(anthropic.com)- Das neueste KI-Modell von Anthropic mit verbesserter Coding-Fähigkeit und Ausdauer bei langfristigen Aufgaben unterstützt ein 1M-Token-Kontextfenster als Beta
- In wichtigen Benchmarks erreicht es Werte auf Spitzenniveau der Branche und liegt mit rund 144 Elo-Punkten vor GPT-5.2
- Die Leistung wurde für praxisorientierte Aufgaben wie Code-Review und Debugging, Verarbeitung großer Codebasen sowie Finanzanalyse und Dokumentenerstellung verbessert
- Entwicklerkontrollen wie Adaptive thinking, context compaction und Effort-Steuerung wurden ergänzt, wodurch sich langfristig laufende Agenten leichter betreiben lassen
- Auch in Sicherheitsbewertungen zeigte das Modell niedrige Raten bei Fehlern, Missbrauch und übermäßiger Verweigerung, sodass es sowohl hohe Leistung als auch Sicherheit erreicht
Wichtige Verbesserungen von Claude Opus 4.6
- Opus 4.6 ist ein Modell mit Verbesserungen gegenüber der vorherigen Version bei Planungsfähigkeit, Agenten-Ausdauer und Code-Qualitätsmanagement
- Es arbeitet in großen Codebasen stabiler und verfügt über bessere Fähigkeiten zur Erkennung und Korrektur eigener Fehler
- Mit dem 1M-Token-Kontextfenster (Beta) kann es lange und komplexe Aufgaben verarbeiten
- Auch die Nutzbarkeit für alltägliche Arbeit wurde erweitert, etwa für Finanzanalysen, Research, Dokumente, Tabellen und die Erstellung von Präsentationen
- In der Cowork-Umgebung kann es Multitasking autonom ausführen und komplexe Aufgaben stellvertretend für den Nutzer übernehmen
Benchmarks und Leistungsbewertung
- Bestwert in Terminal-Bench 2.0, zudem führend unter allen Frontier-Modellen in Humanity’s Last Exam
- In der Bewertung GDPval-AA liegt die Leistung rund 144 Elo-Punkte über GPT-5.2 und 190 Punkte über Opus 4.5
- Auch im Test BrowseComp wurde die höchste Leistung erreicht, mit verbesserter Fähigkeit zur Online-Informationssuche
- In MRCR v2 (1M variant) erreicht es 76 %, ein deutlicher Sprung gegenüber 18,5 % bei Sonnet 4.5
- Die Fähigkeit, lange Kontexte beizubehalten und Informationen nachzuverfolgen, wurde verbessert, wodurch das Phänomen des context rot gemildert wird
Erste Nutzungserfahrungen und Feedback von Partnern
- In internen Engineering-Tests wurden verbesserte Fähigkeiten zur Lösung komplexer Probleme und besseres Urteilsvermögen festgestellt
- Bei schwierigen Problemen wiederholt das Modell tiefgehende Denkprozesse und erzielt dadurch bessere Ergebnisse
- Bei einfachen Aufgaben kann übermäßiges Nachdenken zu Verzögerungen führen; dies lässt sich mit dem Parameter
/effortsteuern
- Frühe Partner bewerteten Opus 4.6 als herausragend bei autonomer Ausführung, Verarbeitung komplexer Anfragen und Unterstützung der Teamzusammenarbeit
- Präzise Leistung etwa bei der Navigation in großen Codebasen, der parallelen Ausführung von Unteraufgaben und der Identifikation von Blockern
- Hohe Genauigkeit bei der Analyse juristischer, finanzieller und technischer Inhalte (z. B. BigLaw Bench 90,2 %)
- In realen Tests lieferte es in 38 von 40 Cybersicherheitsuntersuchungen bessere Ergebnisse als Opus 4.5
- Es wurde berichtet, dass eine Migration von Millionen Zeilen Code in der halben Zeit abgeschlossen wurde
Verbesserte Sicherheit und Schutzmechanismen
- Bei automatisierten Verhaltensaudits war der Anteil nicht ausgerichteter Verhaltensweisen wie Täuschung, Einschmeichelei und Kooperation bei Missbrauch niedrig
- Es ist das Claude-Modell mit der niedrigsten over-refusal-Rate
- Neue Sicherheitsbewertungen wurden für Nutzerwohl, die Ablehnung riskanter Anfragen und die Erkennung verdeckt schädlichen Verhaltens durchgeführt
- Durch Interpretierbarkeitsforschung werden Ursachen interner Modellabläufe analysiert und potenzielle Probleme erkannt
- Mit der verstärkten Cybersicherheitsfähigkeit wurden sechs neue Sicherheitsprobes eingeführt, um Missbrauch besser zu erkennen
- Für die defensive Nutzung unterstützt es die Erkennung und das Patchen von Open-Source-Schwachstellen; eine künftige Echtzeit-Blockierung von Missbrauch ist geplant
Produkt- und API-Updates
- Auf der Claude Developer Platform wurden die folgenden Funktionen ergänzt
- Adaptive thinking: Das Modell entscheidet je nach Situation automatisch, ob tiefgehendes Nachdenken nötig ist
- Effort-Stufen: vier Stufen – low, medium, high (Standard) und max
- Context compaction (Beta): Wenn Gespräche länger werden, werden ältere Kontexte zusammengefasst und ersetzt
- Unterstützung für 1M-Token-Kontext (Beta) und 128k Output-Token
- Option für US-only inference (1,1-facher Preis)
- Zu Claude Code wurde die Funktion agent teams hinzugefügt, mit der mehrere Agenten parallel zusammenarbeiten können
- Claude in Excel verbessert die Strukturierung unstrukturierter Daten und die Verarbeitung mehrstufiger Änderungen
- Claude in PowerPoint (Research Preview) erkennt Folienvorlagen, Schriftarten und Layouts, um die Markenkonsistenz zu wahren
Zugang und Preise
- Opus 4.6 ist ab sofort über claude.ai, die API und große Cloud-Plattformen verfügbar
- Der API-Modellname lautet
claude-opus-4-6, der Preis bleibt unverändert bei $5/$25 per million tokens - Für Prompts mit mehr als 200k Token gilt ein Premiumpreis ($10/$37.50 per million tokens)
Fazit
- Claude Opus 4.6 stellt einen großen Sprung bei langfristiger Kontextverarbeitung, autonomer Agentenarbeit und fortgeschrittener Schlussfolgerungsfähigkeit dar
- Als Modell mit Verbesserungen bei Leistung, Sicherheit und Entwicklerkontrolle setzt es einen neuen Maßstab für praxisnahe KI-Werkzeuge
9 Kommentare
Ich nutze Max, und irgendwie fühlt es sich umso befriedigender an, je mehr Tokens ich verbrauche ... wenn ich sie nicht nutze, wäre es irgendwie verschwendet ...
Die im Internet kursierenden Informationen zur Preissenkung wurden wohl doch nicht umgesetzt, seufz.
Auf Reddit häufen sich gerade Beiträge darüber, dass Abonnenten ihre Limits in Lichtgeschwindigkeit aufbrauchen. Ich habe auch noch anderes zu tun und nutze deshalb einfach weiter 4.5.
Anscheinend gibt es für begrenzte Zeit zusätzliches Nutzungsguthaben im Wert von 50 Dollar. Haha.
Ich hatte gehofft, dass mit sinkenden API-Preisen ganz natürlich auch das Wochenlimit steigt, aber das ist leider enttäuschend T_T Das Wochenlimit im 200-Dollar-Plan ist nicht gerade großzügig..
Uff, das ist echt zu knapp bemessen … Anthropic soll mal ein paar Tokens rausrücken..!!
Oho, endlich~~~~
Ich hatte Sonnet 5 erwartet, aber es war Opus 4.6, haha.
Hacker-News-Kommentare
Der Fahrradrahmen ist zwar etwas schief, aber der Pelikan selbst ist hervorragend.
Das Bild kann man hier ansehen
Mir ist sofort aufgefallen, dass die beiden Beine des Pelikans auf derselben Seite sind, und ich habe auf Wikipedia nachgesehen, dass das in Wirklichkeit nicht so ist.
Ich frage mich, ob auch ausprobiert wurde, den Prompt iterativ zu überarbeiten, um ein realistischeres Ergebnis zu erhalten.
Sie machen oft Fehler bei der Rahmenstruktur oder den geometrischen Proportionen.
Link
GPT‑5.3 Codex hat mit 77,3 % auf Terminal Bench eine überwältigende Leistung gezeigt.
Erstaunlich ist, dass der Rekord schon nach nur 35 Minuten gebrochen wurde.
Vielleicht laufen sie direkt nach dem Release mit maximaler Leistung und werden später zur Kostensenkung heruntergeregelt?
Ich würde es gern selbst ausprobieren und dann Eindrücke austauschen.
Vielleicht haben wir inzwischen einen Sättigungspunkt bei Benchmarks erreicht.
Eine Zusammenfassung der Release Notes von Claude Code.
Hinzugekommen sind Opus 4.6, Multi-Agent-Kollaboration, automatisches Speichern von Erinnerungen, partielle Gesprächszusammenfassungen, Verbesserungen für VSCode und weitere Updates.
Laut der Dokumentation zur Memory-Funktion scheint das ein ähnliches Konzept wie das Knowledge-Artefakt von Google Antigravity zu sein.
Ich denke, in der Diskussion werden zwei Dinge verwechselt.
Das eine ist die Profitabilität auf Basis der Token-Stückkosten, das andere die Ökonomie des Modell-Lebenszyklus.
Die Kosten pro Inferenz können profitabel sein, während das gesamte Modellprogramm trotzdem noch defizitär ist.
Die eigentliche Frage lautet: „Wie lange muss ein Modell wettbewerbsfähig bleiben, damit es sich wirtschaftlich rechnet?“
Es muss nicht das Beste sein; wenn es gut genug ist und die Wechselkosten hoch sind, kann es den Markt dominieren.
Selbst wenn man anfangs Verluste in Kauf nimmt, kann es sinnvoll sein, den Markt über bestimmte Domänen (z. B. Coding) zu besetzen.
Aber bei Tarifen mit 20-fach höherer Nutzung ist die Nachhaltigkeit fraglich.
Ich bin nicht sicher, ob die aktuelle „Vibe-Coding-Renaissance“ bei dieser Kostenstruktur Bestand haben kann.
Eine Betrachtung nach Jahresergebnis ist für AI-Unternehmen nicht passend.
Er trägt derzeit den Boom beim agentischen Coding.
Wahrscheinlich wird er ein Stück weit subventioniert, langfristig aber wohl um etwa das Doppelte teurer werden.
Das 1M-Kontextfenster ist ein riesiges Upgrade, und ich bin damit sehr zufrieden.
Ich verstehe die Strategie von Anthropic immer noch nicht ganz.
Das Marketing zielt auf den Massenmarkt, die tatsächliche Stärke liegt aber klar beim Coding.
Für allgemeine Recherche oder Informationssuche sind ChatGPT oder Gemini viel tiefgehender und auch sprachlich besser.
Es wird mit „Verfassung“ oder „Menschenrechten“ als menschlichem Image geworben, aber gerade dadurch wirkt es auf mich am transaktionalsten.
Trotzdem ist es fürs Coding hervorragend, deshalb bezahle ich weiterhin dafür.
Nichttechnische Freunde von mir sind von ChatGPT zu Claude gewechselt, und ich habe niemanden gesehen, der wieder zurückgegangen wäre.
Vor 8 Monaten war es über die API noch das Einzige, was wirklich brauchbar war, heute ist es deutlich besser.
Ich bin Tschechischsprecher; Claude erfindet Wörter, und Grok antwortet manchmal auf Russisch.
Zum Coding ist es gut, aber für allgemeine Gespräche unbrauchbar.
Für agentische Aufgaben oder Tool-Nutzung ist es gut, aber für alltägliche Fragen nutze ich es nicht.
Opus 4.6 wurde bei der Installation nicht angezeigt, aber nachdem ich den Installationsbefehl erneut ausgeführt habe, war es da (v2.1.32).
Installationsanleitung
Ich frage mich, ob die Betriebskosten von AI/LLMs tatsächlich sinken.
Das Konzept eines „Agenten-Teams“ klingt cool, aber wenn mehrere Modelle gleichzeitig laufen, steigen die Kosten so stark, dass es praktisch schwer umsetzbar wirkt.
OpenAI hat den Preis von o3 durch Engineering-Optimierungen auf ein Fünftel gesenkt, und andere Anbieter haben ähnliche Einsparungen erzielt.
Die frühere Behauptung, man verliere bei jeder Anfrage Geld, stimmt so nicht.
Das Unternehmen insgesamt macht wegen F&E und Trainingskosten Verluste, aber die API-Nutzung selbst ist profitabel.
Selbst offene Modelle wie DeepSeek verdienen bei deutlich niedrigeren Preisen noch Geld.
Zum Beispiel ist Claude 4 (ca. 400B Parameter) viel teurer als DeepSeek V3 (680B).
Claude Eingabe $1/M, Ausgabe $5/M vs. DeepSeek Eingabe $0,4/M, Ausgabe $1,2/M
Dieser Unterschied liegt daran, dass Anthropic die Trainingskosten amortisieren muss.
DeepSeek-Preise, Claude-Preise
Wenn man nur auf die Inferenzumsätze schaut, ist es profitabel, aber bei den Gesamtkosten muss das nicht so sein.
Ich nutze sie als Coding-Hilfe, muss aber häufig den Kurs korrigieren.
Trotzdem ist es viel günstiger, als erfahrene Fachkräfte einzustellen.
Der Slogan „We build Claude with Claude“ ist ziemlich interessant.
Sie werden nach 60 Tagen Inaktivität automatisch bereinigt, nehmen aber trotzdem weiter zu.
Abgesehen davon, dass der Slogan Vorurteile erkennen lässt, bedeutet er nicht viel.
Das eigene Produkt selbst zu benutzen ist die beste Methode zur Qualitätsverbesserung.
Das erklärt, warum Wrapper gerade so explodieren, und irgendwann wird es wohl einen Sicherheitsvorfall geben.
Um Opus 4.6 auszuprobieren, werden zusätzlich $50 Guthaben bereitgestellt.
Auf der Nutzungsseite kann man es direkt abholen.
Vermutlich rechnet man mit steigendem Tokenverbrauch oder will das Modell promoten.