- Claude Opus 4.6 und Sonnet 4.6 unterstützen jetzt ein Kontextfenster von 1 Million Token (1M) zum Standardpreis, die volle Spanne ist ohne separates Premium nutzbar
- Die Preise bleiben unverändert: Für Opus 4.6 gelten $5/$25, für Sonnet 4.6 $3/$15 (für Eingabe/Ausgabe); Anfragen mit 9K oder 900K werden im gleichen Verhältnis berechnet
- Durch die 6-fach erhöhte Grenze für Medieneingaben können jetzt bis zu 600 Bilder oder PDF-Seiten auf einmal verarbeitet werden; außerdem ist dies sofort auch in Azure Foundry und Google Vertex AI nutzbar
- Max-, Team- und Enterprise-Nutzer von Claude Code können 1M-Kontext automatisch verwenden, was die Sitzungskomprimierung reduziert und die Gesprächskontinuität verbessert
- Dies wird als Funktion bewertet, die Genauigkeit und Effizienz steigert, während komplexer langfristiger Kontext wie große Codebasen, Verträge und Betriebslogs erhalten bleibt
Überblick zur allgemeinen Verfügbarkeit von 1M-Kontext
- Opus 4.6 und Sonnet 4.6 bieten im Claude Platform jetzt ein Kontextfenster von 1M zum Standardpreis
- Für Opus 4.6 gelten $5 (Eingabe) / $25 (Ausgabe) pro Million Token, für Sonnet 4.6 $3 / $15
- Keine unterschiedlichen Tarife je nach Größe der Anfrage
- Der Premiumzuschlag für langen Kontext entfällt, bei allen Kontextlängen bleibt derselbe Durchsatz erhalten
- Grenze für Medieneingaben 6-fach erhöht: Unterstützung für bis zu 600 Bilder oder PDF-Seiten
- Kein Beta-Header erforderlich, auch Anfragen über 200K Token werden automatisch verarbeitet
Integration in Claude Code
- Bei Verwendung von Opus 4.6 ist 1M-Kontext in den Max-, Team- und Enterprise-Plänen von Claude Code automatisch aktiviert
- Weniger Komprimierung (Compaction) innerhalb einer Sitzung
- Zuvor war zusätzlicher Verbrauch erforderlich, jetzt ist es standardmäßig enthalten
Modellleistung und Genauigkeit
- Opus 4.6 erreicht 78,3 % nach MRCR v2 und liefert damit die beste Leistung unter Modellen mit derselben Kontextlänge
- Auch bei 1M-Kontext bleiben Genauigkeit erhalten und die Suchleistung in langen Texten verbessert
- Große Codebasen, Verträge und langfristige Agent-Logs können unter Beibehaltung des vollständigen Kontexts verarbeitet werden
- Das gesamte Gespräch bleibt erhalten, ohne Zusammenfassungen oder Zurücksetzen des Kontexts
Praktische Anwendungsfälle
- Wissenschaftliche Forschung: Hunderte wissenschaftliche Arbeiten, mathematische Frameworks und Simulationscode lassen sich in einer Sitzung integriert analysieren (Alex Wissner-Gross)
- Juristische Arbeit: Mehrere Versionen eines 100-seitigen Vertrags können in einer Sitzung verglichen werden (Bardia Pourvakil)
- Analyse von Betriebssystemen: Während der Störungsbehebung bleiben alle Signale und Hypothesen auf einen Blick erhalten (Mayank Agarwal)
- AI-Forschung und Code-Review: Große Diff-Dateien können in einem Durchgang verarbeitet werden, was die Qualität verbessert (Adhyyan Sekhsaria)
- Datenanalyse und Debugging: Bei der Suche in Datadog, Datenbanken und Quellcode bleiben Details ohne Informationsverlust erhalten (Anton Biryukov)
- Höhere Agenten-Effizienz: 15 % weniger Kontextkomprimierungsereignisse, frühe Informationen bleiben auch in langen Sitzungen erhalten (Jon Bell)
Verfügbare Plattformen und Einstieg
- 1M-Kontext ist sofort nutzbar auf Claude Platform, Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry
- Für Nutzer von Claude Code Max, Team und Enterprise auf Basis von Opus 4.6 gilt standardmäßig 1M-Kontext
- Details finden sich in der offiziellen Dokumentation (documentation) und auf der Seite zu Preisen (pricing)
1 Kommentare
Hacker-News-Kommentare
Opus 4.6 ist wirklich auf erstaunlichem Niveau
Egal ob Frontend, Backend oder Algorithmen, es erledigt praktisch jede Aufgabe gut
Wenn man mit einem PRD startet, einen Schritt-für-Schritt-Plan erstellt und ihn nacheinander ausführt, kommt in wenigen Stunden ein tatsächlich funktionierendes Ergebnis heraus
Es war die erste KI, bei der ich dachte: „Das ist vielleicht schlauer als ich“
Außerdem kann man mit der aktuellen Technik mehrere Agenten gleichzeitig mit einer Geschwindigkeit von 1k Token pro Sekunde laufen lassen
Ich habe Claude Code auf Basis von Opus 4.6 ein Refactoring von React-Code machen lassen, konkret useState/useEffect → useMemo
Der Plan war hervorragend, aber in einem Teil des Codes wurden Variablendeklarationen an die falsche Stelle gesetzt, wodurch undefined-Referenzen entstanden
Als ich das korrigieren wollte, versuchte es stattdessen die Struktur stark umzubauen, also habe ich es am Ende manuell behoben
Insgesamt hat es zwar Zeit gespart, war aber eine ziemlich nervige Erfahrung
Ich habe mit Opus 4.6 versucht, ein Test-Harness für ein Datenbank-Diff-Tool zu bauen, aber stattdessen wurden Tests für ein anderes bestehendes Tool erzeugt
Der Testcode rief die eigentlichen Funktionen nicht auf, sondern implementierte die Logik direkt selbst
Erst nach 4 Stunden und 75 Dollar hatte ich etwas, das gerade so lief, aber die Qualität war nicht besonders
Bei uns in der Firma hieß es auch, wir sollten das Budget für Claude-Nutzung erhöhen, aber alle kämpfen mit ähnlichen Problemen
Im Moment ist es deutlich effizienter für partielle Änderungen oder Debugging in VS Studio
Es ging um ein Berechnungsproblem zur Ablagerung von Sediment in einem Gelände-Wassertank, und Opus wiederholte ständig drei widersprüchliche Erklärungen
Auch nach drei Versuchen steckte es noch in derselben Schleife fest, also habe ich es schließlich mit einem brute-force-Ansatz erzwungen gelöst
Ein Mensch wäre wahrscheinlich spätestens beim zweiten Mal nicht in so eine Schleife geraten
Es folgt nicht nur Anweisungen, sondern schlägt von sich aus Verbesserungsideen vor, um die niemand gebeten hat
Der Kern dieses Updates ist, dass für das gesamte 1M-Token-Fenster Standardpreise gelten und 600 Bilder/PDF-Seiten unterstützt werden
Für Claude-Code-Nutzer ist das eine große Veränderung
Bei mir war es stabiler, unter 40 % zu bleiben (also etwa 80k Token), ähnlich wie in der Forschung von Dex Horthy
Das Video „No vibes allowed“ gibt es hier
Bis etwa 700k Token war es okay, aber darüber hinaus wirkte es allmählich spürbar träger
Es ist stabiler, es eher im Pair-Programming-Modus als für vollständige Automatisierung zu verwenden
800k Input kosten das Achtfache von 100k, also kann es ohne Cache schnell zu einer API-Kostenexplosion kommen
Während der Unterhaltung wird der Kontext häufig vergessen
Es wurde die Meinung geäußert, dass es besser sei, den Code einfach selbst zu schreiben
Meine Karriere hat sich von Python zu C/C++ verlagert
In Python ist Opus manchmal besser als ich, aber im Embedded-Bereich ist es noch auf Junior-Niveau
Ich denke, das liegt letztlich an der Qualität der Trainingsdaten
Deshalb glaube ich nicht, dass LLMs Hardware-Ingenieure so bald ersetzen werden
Ich habe CI-Checks gebaut, um das Thrashing-Problem von KI-generiertem Code zu verhindern
Beim wiederholten Beheben fehlschlagender Tests fügen Agenten oft Phantom-Imports oder deprecated APIs ein
Deshalb lasse ich bei jedem PR einen leichten Scan laufen, der nicht existierende npm-Pakete oder Kontextabweichungen aufspürt
Klassische statische Analyse schaut nur auf die Syntax, aber KI-Code ist oft semantisch falsch
Ich denke, solche prüfungen auf Basis von Domänenwissen werden künftig unverzichtbar sein
Jemand fragte, warum die Leistung in der Nähe von 100k Token nachlässt
Viele meinten, der tatsächlich nutzbare Kontext sei kleiner
Vielleicht ist das auch nur eine Fehleinschätzung, weil ältere Erfahrungen nachwirken
Ob man 90k Token in einem 100k- oder 1M-Fenster nutzt, es wird ähnlich schlecht
In großen Codebasen ist die Prompt-Qualität entscheidend
In Claude Code 2.1.75 ist die Unterscheidung zwischen Standard-Opus und 1M-Opus verschwunden
Im Pro-Tarif sieht es ebenfalls so aus, tatsächlich gibt es aber weiterhin Einschränkungen
Vermutlich ist das eine Strategie von Anthropic als Reaktion auf den Wettbewerb mit dem 1M-Fenster von GPT 5.4
Die Preisgestaltung von Claude ist seltsam
Der 5X-Plan kostet exakt das Fünffache des vorherigen Plans
Normalerweise gibt es bei größeren Abnahmemengen Rabatt, hier aber nicht
Vermutlich halten sie es eher für besser, wenn fünf Personen es aufteilen, statt dass eine Person das Fünffache nutzt
Als ich es heute ausprobiert habe, war es wirklich eine interessante Veränderung
Man kann jetzt mehrere parallele Subagent-Sitzungen in einer einzigen Master-Sitzung unterbringen
Opus 1M soll ungefähr dem 256k-Niveau von GPT 5.4 entsprechen, aber mit kaum Qualitätsverlust
Allerdings fällt es nicht so abrupt ab wie Modelle aus q4 ’25
Vermutlich, weil es Token offensiver genutzt hat, statt daran zu sparen
Die Firma unterstütze nur GitHub Copilot
Es wurde gefragt, ob lange Sitzungen das Token-Budget schnell aufbrauchen,
weil mit zunehmender Gesprächslänge der frühere Kontext immer wieder mitgesendet wird
Bei häufigen Tool-Aufrufen kann das mehrmals pro Minute abgerechnet werden
Bis zu 900k Token können gecacht werden