20 Punkte von GN⁺ 2026-02-06 | 9 Kommentare | Auf WhatsApp teilen
  • Das neueste KI-Modell von Anthropic mit verbesserter Coding-Fähigkeit und Ausdauer bei langfristigen Aufgaben unterstützt ein 1M-Token-Kontextfenster als Beta
  • In wichtigen Benchmarks erreicht es Werte auf Spitzenniveau der Branche und liegt mit rund 144 Elo-Punkten vor GPT-5.2
  • Die Leistung wurde für praxisorientierte Aufgaben wie Code-Review und Debugging, Verarbeitung großer Codebasen sowie Finanzanalyse und Dokumentenerstellung verbessert
  • Entwicklerkontrollen wie Adaptive thinking, context compaction und Effort-Steuerung wurden ergänzt, wodurch sich langfristig laufende Agenten leichter betreiben lassen
  • Auch in Sicherheitsbewertungen zeigte das Modell niedrige Raten bei Fehlern, Missbrauch und übermäßiger Verweigerung, sodass es sowohl hohe Leistung als auch Sicherheit erreicht

Wichtige Verbesserungen von Claude Opus 4.6

  • Opus 4.6 ist ein Modell mit Verbesserungen gegenüber der vorherigen Version bei Planungsfähigkeit, Agenten-Ausdauer und Code-Qualitätsmanagement
    • Es arbeitet in großen Codebasen stabiler und verfügt über bessere Fähigkeiten zur Erkennung und Korrektur eigener Fehler
    • Mit dem 1M-Token-Kontextfenster (Beta) kann es lange und komplexe Aufgaben verarbeiten
  • Auch die Nutzbarkeit für alltägliche Arbeit wurde erweitert, etwa für Finanzanalysen, Research, Dokumente, Tabellen und die Erstellung von Präsentationen
  • In der Cowork-Umgebung kann es Multitasking autonom ausführen und komplexe Aufgaben stellvertretend für den Nutzer übernehmen

Benchmarks und Leistungsbewertung

  • Bestwert in Terminal-Bench 2.0, zudem führend unter allen Frontier-Modellen in Humanity’s Last Exam
  • In der Bewertung GDPval-AA liegt die Leistung rund 144 Elo-Punkte über GPT-5.2 und 190 Punkte über Opus 4.5
  • Auch im Test BrowseComp wurde die höchste Leistung erreicht, mit verbesserter Fähigkeit zur Online-Informationssuche
  • In MRCR v2 (1M variant) erreicht es 76 %, ein deutlicher Sprung gegenüber 18,5 % bei Sonnet 4.5
  • Die Fähigkeit, lange Kontexte beizubehalten und Informationen nachzuverfolgen, wurde verbessert, wodurch das Phänomen des context rot gemildert wird

Erste Nutzungserfahrungen und Feedback von Partnern

  • In internen Engineering-Tests wurden verbesserte Fähigkeiten zur Lösung komplexer Probleme und besseres Urteilsvermögen festgestellt
    • Bei schwierigen Problemen wiederholt das Modell tiefgehende Denkprozesse und erzielt dadurch bessere Ergebnisse
    • Bei einfachen Aufgaben kann übermäßiges Nachdenken zu Verzögerungen führen; dies lässt sich mit dem Parameter /effort steuern
  • Frühe Partner bewerteten Opus 4.6 als herausragend bei autonomer Ausführung, Verarbeitung komplexer Anfragen und Unterstützung der Teamzusammenarbeit
    • Präzise Leistung etwa bei der Navigation in großen Codebasen, der parallelen Ausführung von Unteraufgaben und der Identifikation von Blockern
    • Hohe Genauigkeit bei der Analyse juristischer, finanzieller und technischer Inhalte (z. B. BigLaw Bench 90,2 %)
    • In realen Tests lieferte es in 38 von 40 Cybersicherheitsuntersuchungen bessere Ergebnisse als Opus 4.5
    • Es wurde berichtet, dass eine Migration von Millionen Zeilen Code in der halben Zeit abgeschlossen wurde

Verbesserte Sicherheit und Schutzmechanismen

  • Bei automatisierten Verhaltensaudits war der Anteil nicht ausgerichteter Verhaltensweisen wie Täuschung, Einschmeichelei und Kooperation bei Missbrauch niedrig
  • Es ist das Claude-Modell mit der niedrigsten over-refusal-Rate
  • Neue Sicherheitsbewertungen wurden für Nutzerwohl, die Ablehnung riskanter Anfragen und die Erkennung verdeckt schädlichen Verhaltens durchgeführt
  • Durch Interpretierbarkeitsforschung werden Ursachen interner Modellabläufe analysiert und potenzielle Probleme erkannt
  • Mit der verstärkten Cybersicherheitsfähigkeit wurden sechs neue Sicherheitsprobes eingeführt, um Missbrauch besser zu erkennen
  • Für die defensive Nutzung unterstützt es die Erkennung und das Patchen von Open-Source-Schwachstellen; eine künftige Echtzeit-Blockierung von Missbrauch ist geplant

Produkt- und API-Updates

  • Auf der Claude Developer Platform wurden die folgenden Funktionen ergänzt
    • Adaptive thinking: Das Modell entscheidet je nach Situation automatisch, ob tiefgehendes Nachdenken nötig ist
    • Effort-Stufen: vier Stufen – low, medium, high (Standard) und max
    • Context compaction (Beta): Wenn Gespräche länger werden, werden ältere Kontexte zusammengefasst und ersetzt
    • Unterstützung für 1M-Token-Kontext (Beta) und 128k Output-Token
    • Option für US-only inference (1,1-facher Preis)
  • Zu Claude Code wurde die Funktion agent teams hinzugefügt, mit der mehrere Agenten parallel zusammenarbeiten können
  • Claude in Excel verbessert die Strukturierung unstrukturierter Daten und die Verarbeitung mehrstufiger Änderungen
  • Claude in PowerPoint (Research Preview) erkennt Folienvorlagen, Schriftarten und Layouts, um die Markenkonsistenz zu wahren

Zugang und Preise

  • Opus 4.6 ist ab sofort über claude.ai, die API und große Cloud-Plattformen verfügbar
  • Der API-Modellname lautet claude-opus-4-6, der Preis bleibt unverändert bei $5/$25 per million tokens
  • Für Prompts mit mehr als 200k Token gilt ein Premiumpreis ($10/$37.50 per million tokens)

Fazit

  • Claude Opus 4.6 stellt einen großen Sprung bei langfristiger Kontextverarbeitung, autonomer Agentenarbeit und fortgeschrittener Schlussfolgerungsfähigkeit dar
  • Als Modell mit Verbesserungen bei Leistung, Sicherheit und Entwicklerkontrolle setzt es einen neuen Maßstab für praxisnahe KI-Werkzeuge

9 Kommentare

 
heim2 2026-02-06

Ich nutze Max, und irgendwie fühlt es sich umso befriedigender an, je mehr Tokens ich verbrauche ... wenn ich sie nicht nutze, wäre es irgendwie verschwendet ...

 
duse0001 2026-02-06

Die im Internet kursierenden Informationen zur Preissenkung wurden wohl doch nicht umgesetzt, seufz.

 
wegaia 2026-02-06

Auf Reddit häufen sich gerade Beiträge darüber, dass Abonnenten ihre Limits in Lichtgeschwindigkeit aufbrauchen. Ich habe auch noch anderes zu tun und nutze deshalb einfach weiter 4.5.

 
duse0001 2026-02-06

Ich hatte gehofft, dass mit sinkenden API-Preisen ganz natürlich auch das Wochenlimit steigt, aber das ist leider enttäuschend T_T Das Wochenlimit im 200-Dollar-Plan ist nicht gerade großzügig..

 
princox 2026-02-06

Uff, das ist echt zu knapp bemessen … Anthropic soll mal ein paar Tokens rausrücken..!!

 
hmmhmmhm 2026-02-06

Oho, endlich~~~~

 
princox 2026-02-06

Ich hatte Sonnet 5 erwartet, aber es war Opus 4.6, haha.

 
GN⁺ 2026-02-06
Hacker-News-Kommentare
  • Der Fahrradrahmen ist zwar etwas schief, aber der Pelikan selbst ist hervorragend.
    Das Bild kann man hier ansehen

    • Ich frage mich, ob es nicht auf Pelikan-Bilder überangepasst ist.
    • Ich frage mich, ob die Wortwahl, etwa bei Wörtern wie „generate“, das Ergebnis des Modells beeinflusst.
      Mir ist sofort aufgefallen, dass die beiden Beine des Pelikans auf derselben Seite sind, und ich habe auf Wikipedia nachgesehen, dass das in Wirklichkeit nicht so ist.
      Ich frage mich, ob auch ausprobiert wurde, den Prompt iterativ zu überarbeiten, um ein realistischeres Ergebnis zu erhalten.
    • Eigentlich können die meisten Menschen auch kein Fahrrad richtig zeichnen.
      Sie machen oft Fehler bei der Rahmenstruktur oder den geometrischen Proportionen.
    • Es gibt auch eine animierte Version.
      Link
    • Ich denke, irgendwann kommt der Punkt, an dem solche Outputs wieder ins Modelltraining einfließen und dann Benchmarks bestehen.
  • GPT‑5.3 Codex hat mit 77,3 % auf Terminal Bench eine überwältigende Leistung gezeigt.
    Erstaunlich ist, dass der Rekord schon nach nur 35 Minuten gebrochen wurde.

    • Die Modellleistung schwankt je nach Tageszeit oder Serverlast; ich frage mich, ob man einer solchen Benchmark-Zuverlässigkeit trauen kann.
      Vielleicht laufen sie direkt nach dem Release mit maximaler Leistung und werden später zur Kostensenkung heruntergeregelt?
    • Da es keinen umfassenden Benchmark-Report gibt, frage ich mich, ob wir nicht wieder bei benchmaxxing gelandet sind.
      Ich würde es gern selbst ausprobieren und dann Eindrücke austauschen.
    • Ein Sprung um 10 Punkte ist eine große Veränderung; ich frage mich, ob sich im realen Einsatz auch ein qualitativer Unterschied bemerkbar macht.
      Vielleicht haben wir inzwischen einen Sättigungspunkt bei Benchmarks erreicht.
    • Claude swe-bench liegt bei 80,8, Codex bei 56,8, daher scheint Claude 4.6 insgesamt weiterhin im Vorteil zu sein.
  • Eine Zusammenfassung der Release Notes von Claude Code.
    Hinzugekommen sind Opus 4.6, Multi-Agent-Kollaboration, automatisches Speichern von Erinnerungen, partielle Gesprächszusammenfassungen, Verbesserungen für VSCode und weitere Updates.

    • Der Teil „Claude speichert und lädt Erinnerungen während der Arbeit automatisch“ ist interessant.
      Laut der Dokumentation zur Memory-Funktion scheint das ein ähnliches Konzept wie das Knowledge-Artefakt von Google Antigravity zu sein.
  • Ich denke, in der Diskussion werden zwei Dinge verwechselt.
    Das eine ist die Profitabilität auf Basis der Token-Stückkosten, das andere die Ökonomie des Modell-Lebenszyklus.
    Die Kosten pro Inferenz können profitabel sein, während das gesamte Modellprogramm trotzdem noch defizitär ist.
    Die eigentliche Frage lautet: „Wie lange muss ein Modell wettbewerbsfähig bleiben, damit es sich wirtschaftlich rechnet?“

    • Man sollte sich an „worse is better“ erinnern.
      Es muss nicht das Beste sein; wenn es gut genug ist und die Wechselkosten hoch sind, kann es den Markt dominieren.
      Selbst wenn man anfangs Verluste in Kauf nimmt, kann es sinnvoll sein, den Markt über bestimmte Domänen (z. B. Coding) zu besetzen.
    • Nach API-Tarifen dürfte es wohl einen kleinen Gewinn geben.
      Aber bei Tarifen mit 20-fach höherer Nutzung ist die Nachhaltigkeit fraglich.
      Ich bin nicht sicher, ob die aktuelle „Vibe-Coding-Renaissance“ bei dieser Kostenstruktur Bestand haben kann.
    • Wie Dario im Podcast sagte, sind Modelle über ihre gesamte Lebensdauer hinweg profitabel.
      Eine Betrachtung nach Jahresergebnis ist für AI-Unternehmen nicht passend.
    • Wirklich interessant ist die Frage, ob der „$200/Monat-Plan“ subventioniert wird.
      Er trägt derzeit den Boom beim agentischen Coding.
      Wahrscheinlich wird er ein Stück weit subventioniert, langfristig aber wohl um etwa das Doppelte teurer werden.
  • Das 1M-Kontextfenster ist ein riesiges Upgrade, und ich bin damit sehr zufrieden.

  • Ich verstehe die Strategie von Anthropic immer noch nicht ganz.
    Das Marketing zielt auf den Massenmarkt, die tatsächliche Stärke liegt aber klar beim Coding.
    Für allgemeine Recherche oder Informationssuche sind ChatGPT oder Gemini viel tiefgehender und auch sprachlich besser.
    Es wird mit „Verfassung“ oder „Menschenrechten“ als menschlichem Image geworben, aber gerade dadurch wirkt es auf mich am transaktionalsten.
    Trotzdem ist es fürs Coding hervorragend, deshalb bezahle ich weiterhin dafür.

    • Auch außerhalb von Code funktioniert Claude in allgemeinen Gesprächen ziemlich gut.
      Nichttechnische Freunde von mir sind von ChatGPT zu Claude gewechselt, und ich habe niemanden gesehen, der wieder zurückgegangen wäre.
      Vor 8 Monaten war es über die API noch das Einzige, was wirklich brauchbar war, heute ist es deutlich besser.
    • In anderen Sprachen als Englisch fällt die Qualität dramatisch ab.
      Ich bin Tschechischsprecher; Claude erfindet Wörter, und Grok antwortet manchmal auf Russisch.
      Zum Coding ist es gut, aber für allgemeine Gespräche unbrauchbar.
    • Das Modell ist nichts für den Alltag.
      Für agentische Aufgaben oder Tool-Nutzung ist es gut, aber für alltägliche Fragen nutze ich es nicht.
  • Opus 4.6 wurde bei der Installation nicht angezeigt, aber nachdem ich den Installationsbefehl erneut ausgeführt habe, war es da (v2.1.32).
    Installationsanleitung

    • Ich nutze es bereits.
  • Ich frage mich, ob die Betriebskosten von AI/LLMs tatsächlich sinken.
    Das Konzept eines „Agenten-Teams“ klingt cool, aber wenn mehrere Modelle gleichzeitig laufen, steigen die Kosten so stark, dass es praktisch schwer umsetzbar wirkt.

    • Die Kosten pro Token sinken kontinuierlich.
      OpenAI hat den Preis von o3 durch Engineering-Optimierungen auf ein Fünftel gesenkt, und andere Anbieter haben ähnliche Einsparungen erzielt.
      Die frühere Behauptung, man verliere bei jeder Anfrage Geld, stimmt so nicht.
    • Dieses Gerücht wird ständig wiederholt, aber ich halte es für ausgeschlossen, dass der Inferenzpreis unter den Selbstkosten liegt.
      Das Unternehmen insgesamt macht wegen F&E und Trainingskosten Verluste, aber die API-Nutzung selbst ist profitabel.
      Selbst offene Modelle wie DeepSeek verdienen bei deutlich niedrigeren Preisen noch Geld.
    • Wenn man sich die tatsächlichen Daten ansieht, kann es kaum verlustbringend sein.
      Zum Beispiel ist Claude 4 (ca. 400B Parameter) viel teurer als DeepSeek V3 (680B).
      Claude Eingabe $1/M, Ausgabe $5/M vs. DeepSeek Eingabe $0,4/M, Ausgabe $1,2/M
      Dieser Unterschied liegt daran, dass Anthropic die Trainingskosten amortisieren muss.
      DeepSeek-Preise, Claude-Preise
    • Die tatsächliche Gewinn-und-Verlust-Rechnung ist schwer, weil Abschreibungen und die Modelllebensdauer große Unsicherheiten sind.
      Wenn man nur auf die Inferenzumsätze schaut, ist es profitabel, aber bei den Gesamtkosten muss das nicht so sein.
    • Der praktische Einsatz von AI-Agenten ist noch begrenzt.
      Ich nutze sie als Coding-Hilfe, muss aber häufig den Kurs korrigieren.
      Trotzdem ist es viel günstiger, als erfahrene Fachkräfte einzustellen.
  • Der Slogan „We build Claude with Claude“ ist ziemlich interessant.

    • Claude Code hat mehr als 6000 offene Issues.
      Sie werden nach 60 Tagen Inaktivität automatisch bereinigt, nehmen aber trotzdem weiter zu.
    • Ich halte es für ein sehr erfolgreiches Produkt.
      Abgesehen davon, dass der Slogan Vorurteile erkennen lässt, bedeutet er nicht viel.
    • Ich sehe darin ein Beispiel für die Bedeutung von Dogfooding.
      Das eigene Produkt selbst zu benutzen ist die beste Methode zur Qualitätsverbesserung.
    • Das Sandboxing von CC ist fast schon ein Witz.
      Das erklärt, warum Wrapper gerade so explodieren, und irgendwann wird es wohl einen Sicherheitsvorfall geben.
    • Damit erklärt sich auch, warum Claude Code strukturell eine React-App ist, die im Terminal ausgegeben wird.
  • Um Opus 4.6 auszuprobieren, werden zusätzlich $50 Guthaben bereitgestellt.
    Auf der Nutzungsseite kann man es direkt abholen.
    Vermutlich rechnet man mit steigendem Tokenverbrauch oder will das Modell promoten.