20 Punkte von GN⁺ 2026-02-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das neueste KI-Modell von Anthropic mit verbesserter Coding-Fähigkeit und Ausdauer bei langfristigen Aufgaben unterstützt ein 1M-Token-Kontextfenster als Beta
  • In wichtigen Benchmarks erreicht es Werte auf Spitzenniveau der Branche und liegt mit rund 144 Elo-Punkten vor GPT-5.2
  • Die Leistung wurde für praxisorientierte Aufgaben wie Code-Review und Debugging, Verarbeitung großer Codebasen sowie Finanzanalyse und Dokumentenerstellung verbessert
  • Entwicklerkontrollen wie Adaptive thinking, context compaction und Effort-Steuerung wurden ergänzt, wodurch sich langfristig laufende Agenten leichter betreiben lassen
  • Auch in Sicherheitsbewertungen zeigte das Modell niedrige Raten bei Fehlern, Missbrauch und übermäßiger Verweigerung, sodass es sowohl hohe Leistung als auch Sicherheit erreicht

Wichtige Verbesserungen von Claude Opus 4.6

  • Opus 4.6 ist ein Modell mit Verbesserungen gegenüber der vorherigen Version bei Planungsfähigkeit, Agenten-Ausdauer und Code-Qualitätsmanagement
    • Es arbeitet in großen Codebasen stabiler und verfügt über bessere Fähigkeiten zur Erkennung und Korrektur eigener Fehler
    • Mit dem 1M-Token-Kontextfenster (Beta) kann es lange und komplexe Aufgaben verarbeiten
  • Auch die Nutzbarkeit für alltägliche Arbeit wurde erweitert, etwa für Finanzanalysen, Research, Dokumente, Tabellen und die Erstellung von Präsentationen
  • In der Cowork-Umgebung kann es Multitasking autonom ausführen und komplexe Aufgaben stellvertretend für den Nutzer übernehmen

Benchmarks und Leistungsbewertung

  • Bestwert in Terminal-Bench 2.0, zudem führend unter allen Frontier-Modellen in Humanity’s Last Exam
  • In der Bewertung GDPval-AA liegt die Leistung rund 144 Elo-Punkte über GPT-5.2 und 190 Punkte über Opus 4.5
  • Auch im Test BrowseComp wurde die höchste Leistung erreicht, mit verbesserter Fähigkeit zur Online-Informationssuche
  • In MRCR v2 (1M variant) erreicht es 76 %, ein deutlicher Sprung gegenüber 18,5 % bei Sonnet 4.5
  • Die Fähigkeit, lange Kontexte beizubehalten und Informationen nachzuverfolgen, wurde verbessert, wodurch das Phänomen des context rot gemildert wird

Erste Nutzungserfahrungen und Feedback von Partnern

  • In internen Engineering-Tests wurden verbesserte Fähigkeiten zur Lösung komplexer Probleme und besseres Urteilsvermögen festgestellt
    • Bei schwierigen Problemen wiederholt das Modell tiefgehende Denkprozesse und erzielt dadurch bessere Ergebnisse
    • Bei einfachen Aufgaben kann übermäßiges Nachdenken zu Verzögerungen führen; dies lässt sich mit dem Parameter /effort steuern
  • Frühe Partner bewerteten Opus 4.6 als herausragend bei autonomer Ausführung, Verarbeitung komplexer Anfragen und Unterstützung der Teamzusammenarbeit
    • Präzise Leistung etwa bei der Navigation in großen Codebasen, der parallelen Ausführung von Unteraufgaben und der Identifikation von Blockern
    • Hohe Genauigkeit bei der Analyse juristischer, finanzieller und technischer Inhalte (z. B. BigLaw Bench 90,2 %)
    • In realen Tests lieferte es in 38 von 40 Cybersicherheitsuntersuchungen bessere Ergebnisse als Opus 4.5
    • Es wurde berichtet, dass eine Migration von Millionen Zeilen Code in der halben Zeit abgeschlossen wurde

Verbesserte Sicherheit und Schutzmechanismen

  • Bei automatisierten Verhaltensaudits war der Anteil nicht ausgerichteter Verhaltensweisen wie Täuschung, Einschmeichelei und Kooperation bei Missbrauch niedrig
  • Es ist das Claude-Modell mit der niedrigsten over-refusal-Rate
  • Neue Sicherheitsbewertungen wurden für Nutzerwohl, die Ablehnung riskanter Anfragen und die Erkennung verdeckt schädlichen Verhaltens durchgeführt
  • Durch Interpretierbarkeitsforschung werden Ursachen interner Modellabläufe analysiert und potenzielle Probleme erkannt
  • Mit der verstärkten Cybersicherheitsfähigkeit wurden sechs neue Sicherheitsprobes eingeführt, um Missbrauch besser zu erkennen
  • Für die defensive Nutzung unterstützt es die Erkennung und das Patchen von Open-Source-Schwachstellen; eine künftige Echtzeit-Blockierung von Missbrauch ist geplant

Produkt- und API-Updates

  • Auf der Claude Developer Platform wurden die folgenden Funktionen ergänzt
    • Adaptive thinking: Das Modell entscheidet je nach Situation automatisch, ob tiefgehendes Nachdenken nötig ist
    • Effort-Stufen: vier Stufen – low, medium, high (Standard) und max
    • Context compaction (Beta): Wenn Gespräche länger werden, werden ältere Kontexte zusammengefasst und ersetzt
    • Unterstützung für 1M-Token-Kontext (Beta) und 128k Output-Token
    • Option für US-only inference (1,1-facher Preis)
  • Zu Claude Code wurde die Funktion agent teams hinzugefügt, mit der mehrere Agenten parallel zusammenarbeiten können
  • Claude in Excel verbessert die Strukturierung unstrukturierter Daten und die Verarbeitung mehrstufiger Änderungen
  • Claude in PowerPoint (Research Preview) erkennt Folienvorlagen, Schriftarten und Layouts, um die Markenkonsistenz zu wahren

Zugang und Preise

  • Opus 4.6 ist ab sofort über claude.ai, die API und große Cloud-Plattformen verfügbar
  • Der API-Modellname lautet claude-opus-4-6, der Preis bleibt unverändert bei $5/$25 per million tokens
  • Für Prompts mit mehr als 200k Token gilt ein Premiumpreis ($10/$37.50 per million tokens)

Fazit

  • Claude Opus 4.6 stellt einen großen Sprung bei langfristiger Kontextverarbeitung, autonomer Agentenarbeit und fortgeschrittener Schlussfolgerungsfähigkeit dar
  • Als Modell mit Verbesserungen bei Leistung, Sicherheit und Entwicklerkontrolle setzt es einen neuen Maßstab für praxisnahe KI-Werkzeuge

Noch keine Kommentare.

Noch keine Kommentare.