- Das neueste KI-Modell von Anthropic mit verbesserter Coding-Fähigkeit und Ausdauer bei langfristigen Aufgaben unterstützt ein 1M-Token-Kontextfenster als Beta
- In wichtigen Benchmarks erreicht es Werte auf Spitzenniveau der Branche und liegt mit rund 144 Elo-Punkten vor GPT-5.2
- Die Leistung wurde für praxisorientierte Aufgaben wie Code-Review und Debugging, Verarbeitung großer Codebasen sowie Finanzanalyse und Dokumentenerstellung verbessert
- Entwicklerkontrollen wie Adaptive thinking, context compaction und Effort-Steuerung wurden ergänzt, wodurch sich langfristig laufende Agenten leichter betreiben lassen
- Auch in Sicherheitsbewertungen zeigte das Modell niedrige Raten bei Fehlern, Missbrauch und übermäßiger Verweigerung, sodass es sowohl hohe Leistung als auch Sicherheit erreicht
Wichtige Verbesserungen von Claude Opus 4.6
- Opus 4.6 ist ein Modell mit Verbesserungen gegenüber der vorherigen Version bei Planungsfähigkeit, Agenten-Ausdauer und Code-Qualitätsmanagement
- Es arbeitet in großen Codebasen stabiler und verfügt über bessere Fähigkeiten zur Erkennung und Korrektur eigener Fehler
- Mit dem 1M-Token-Kontextfenster (Beta) kann es lange und komplexe Aufgaben verarbeiten
- Auch die Nutzbarkeit für alltägliche Arbeit wurde erweitert, etwa für Finanzanalysen, Research, Dokumente, Tabellen und die Erstellung von Präsentationen
- In der Cowork-Umgebung kann es Multitasking autonom ausführen und komplexe Aufgaben stellvertretend für den Nutzer übernehmen
Benchmarks und Leistungsbewertung
- Bestwert in Terminal-Bench 2.0, zudem führend unter allen Frontier-Modellen in Humanity’s Last Exam
- In der Bewertung GDPval-AA liegt die Leistung rund 144 Elo-Punkte über GPT-5.2 und 190 Punkte über Opus 4.5
- Auch im Test BrowseComp wurde die höchste Leistung erreicht, mit verbesserter Fähigkeit zur Online-Informationssuche
- In MRCR v2 (1M variant) erreicht es 76 %, ein deutlicher Sprung gegenüber 18,5 % bei Sonnet 4.5
- Die Fähigkeit, lange Kontexte beizubehalten und Informationen nachzuverfolgen, wurde verbessert, wodurch das Phänomen des context rot gemildert wird
Erste Nutzungserfahrungen und Feedback von Partnern
- In internen Engineering-Tests wurden verbesserte Fähigkeiten zur Lösung komplexer Probleme und besseres Urteilsvermögen festgestellt
- Bei schwierigen Problemen wiederholt das Modell tiefgehende Denkprozesse und erzielt dadurch bessere Ergebnisse
- Bei einfachen Aufgaben kann übermäßiges Nachdenken zu Verzögerungen führen; dies lässt sich mit dem Parameter
/effort steuern
- Frühe Partner bewerteten Opus 4.6 als herausragend bei autonomer Ausführung, Verarbeitung komplexer Anfragen und Unterstützung der Teamzusammenarbeit
- Präzise Leistung etwa bei der Navigation in großen Codebasen, der parallelen Ausführung von Unteraufgaben und der Identifikation von Blockern
- Hohe Genauigkeit bei der Analyse juristischer, finanzieller und technischer Inhalte (z. B. BigLaw Bench 90,2 %)
- In realen Tests lieferte es in 38 von 40 Cybersicherheitsuntersuchungen bessere Ergebnisse als Opus 4.5
- Es wurde berichtet, dass eine Migration von Millionen Zeilen Code in der halben Zeit abgeschlossen wurde
Verbesserte Sicherheit und Schutzmechanismen
- Bei automatisierten Verhaltensaudits war der Anteil nicht ausgerichteter Verhaltensweisen wie Täuschung, Einschmeichelei und Kooperation bei Missbrauch niedrig
- Es ist das Claude-Modell mit der niedrigsten over-refusal-Rate
- Neue Sicherheitsbewertungen wurden für Nutzerwohl, die Ablehnung riskanter Anfragen und die Erkennung verdeckt schädlichen Verhaltens durchgeführt
- Durch Interpretierbarkeitsforschung werden Ursachen interner Modellabläufe analysiert und potenzielle Probleme erkannt
- Mit der verstärkten Cybersicherheitsfähigkeit wurden sechs neue Sicherheitsprobes eingeführt, um Missbrauch besser zu erkennen
- Für die defensive Nutzung unterstützt es die Erkennung und das Patchen von Open-Source-Schwachstellen; eine künftige Echtzeit-Blockierung von Missbrauch ist geplant
Produkt- und API-Updates
- Auf der Claude Developer Platform wurden die folgenden Funktionen ergänzt
- Adaptive thinking: Das Modell entscheidet je nach Situation automatisch, ob tiefgehendes Nachdenken nötig ist
- Effort-Stufen: vier Stufen – low, medium, high (Standard) und max
- Context compaction (Beta): Wenn Gespräche länger werden, werden ältere Kontexte zusammengefasst und ersetzt
- Unterstützung für 1M-Token-Kontext (Beta) und 128k Output-Token
- Option für US-only inference (1,1-facher Preis)
- Zu Claude Code wurde die Funktion agent teams hinzugefügt, mit der mehrere Agenten parallel zusammenarbeiten können
- Claude in Excel verbessert die Strukturierung unstrukturierter Daten und die Verarbeitung mehrstufiger Änderungen
- Claude in PowerPoint (Research Preview) erkennt Folienvorlagen, Schriftarten und Layouts, um die Markenkonsistenz zu wahren
Zugang und Preise
- Opus 4.6 ist ab sofort über claude.ai, die API und große Cloud-Plattformen verfügbar
- Der API-Modellname lautet
claude-opus-4-6, der Preis bleibt unverändert bei $5/$25 per million tokens
- Für Prompts mit mehr als 200k Token gilt ein Premiumpreis ($10/$37.50 per million tokens)
Fazit
- Claude Opus 4.6 stellt einen großen Sprung bei langfristiger Kontextverarbeitung, autonomer Agentenarbeit und fortgeschrittener Schlussfolgerungsfähigkeit dar
- Als Modell mit Verbesserungen bei Leistung, Sicherheit und Entwicklerkontrolle setzt es einen neuen Maßstab für praxisnahe KI-Werkzeuge
Noch keine Kommentare.