1M-Kontext jetzt allgemein verfügbar in Opus 4.6 und Sonnet 4.6

(claude.com)

1 Punkte von GN⁺ 2026-03-14 | 1 Kommentare | Auf WhatsApp teilen

Claude Opus 4.6 und Sonnet 4.6 unterstützen jetzt ein Kontextfenster von 1 Million Token (1M) zum Standardpreis, die volle Spanne ist ohne separates Premium nutzbar
Die Preise bleiben unverändert: Für Opus 4.6 gelten $5/$25, für Sonnet 4.6 $3/$15 (für Eingabe/Ausgabe); Anfragen mit 9K oder 900K werden im gleichen Verhältnis berechnet
Durch die 6-fach erhöhte Grenze für Medieneingaben können jetzt bis zu 600 Bilder oder PDF-Seiten auf einmal verarbeitet werden; außerdem ist dies sofort auch in Azure Foundry und Google Vertex AI nutzbar
Max-, Team- und Enterprise-Nutzer von Claude Code können 1M-Kontext automatisch verwenden, was die Sitzungskomprimierung reduziert und die Gesprächskontinuität verbessert
Dies wird als Funktion bewertet, die Genauigkeit und Effizienz steigert, während komplexer langfristiger Kontext wie große Codebasen, Verträge und Betriebslogs erhalten bleibt

Überblick zur allgemeinen Verfügbarkeit von 1M-Kontext

Opus 4.6 und Sonnet 4.6 bieten im Claude Platform jetzt ein Kontextfenster von 1M zum Standardpreis
- Für Opus 4.6 gelten $5 (Eingabe) / $25 (Ausgabe) pro Million Token, für Sonnet 4.6 $3 / $15
- Keine unterschiedlichen Tarife je nach Größe der Anfrage
Der Premiumzuschlag für langen Kontext entfällt, bei allen Kontextlängen bleibt derselbe Durchsatz erhalten
Grenze für Medieneingaben 6-fach erhöht: Unterstützung für bis zu 600 Bilder oder PDF-Seiten
Kein Beta-Header erforderlich, auch Anfragen über 200K Token werden automatisch verarbeitet

Integration in Claude Code

Bei Verwendung von Opus 4.6 ist 1M-Kontext in den Max-, Team- und Enterprise-Plänen von Claude Code automatisch aktiviert
- Weniger Komprimierung (Compaction) innerhalb einer Sitzung
- Zuvor war zusätzlicher Verbrauch erforderlich, jetzt ist es standardmäßig enthalten

Modellleistung und Genauigkeit

Opus 4.6 erreicht 78,3 % nach MRCR v2 und liefert damit die beste Leistung unter Modellen mit derselben Kontextlänge
Auch bei 1M-Kontext bleiben Genauigkeit erhalten und die Suchleistung in langen Texten verbessert
Große Codebasen, Verträge und langfristige Agent-Logs können unter Beibehaltung des vollständigen Kontexts verarbeitet werden
- Das gesamte Gespräch bleibt erhalten, ohne Zusammenfassungen oder Zurücksetzen des Kontexts

Praktische Anwendungsfälle

Wissenschaftliche Forschung: Hunderte wissenschaftliche Arbeiten, mathematische Frameworks und Simulationscode lassen sich in einer Sitzung integriert analysieren (Alex Wissner-Gross)
Juristische Arbeit: Mehrere Versionen eines 100-seitigen Vertrags können in einer Sitzung verglichen werden (Bardia Pourvakil)
Analyse von Betriebssystemen: Während der Störungsbehebung bleiben alle Signale und Hypothesen auf einen Blick erhalten (Mayank Agarwal)
AI-Forschung und Code-Review: Große Diff-Dateien können in einem Durchgang verarbeitet werden, was die Qualität verbessert (Adhyyan Sekhsaria)
Datenanalyse und Debugging: Bei der Suche in Datadog, Datenbanken und Quellcode bleiben Details ohne Informationsverlust erhalten (Anton Biryukov)
Höhere Agenten-Effizienz: 15 % weniger Kontextkomprimierungsereignisse, frühe Informationen bleiben auch in langen Sitzungen erhalten (Jon Bell)

Verfügbare Plattformen und Einstieg

1M-Kontext ist sofort nutzbar auf Claude Platform, Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry
Für Nutzer von Claude Code Max, Team und Enterprise auf Basis von Opus 4.6 gilt standardmäßig 1M-Kontext
Details finden sich in der offiziellen Dokumentation (documentation) und auf der Seite zu Preisen (pricing)

1 Kommentare

GN⁺ 2026-03-14

Hacker-News-Kommentare

Opus 4.6 ist wirklich auf erstaunlichem Niveau
Egal ob Frontend, Backend oder Algorithmen, es erledigt praktisch jede Aufgabe gut
Wenn man mit einem PRD startet, einen Schritt-für-Schritt-Plan erstellt und ihn nacheinander ausführt, kommt in wenigen Stunden ein tatsächlich funktionierendes Ergebnis heraus
Es war die erste KI, bei der ich dachte: „Das ist vielleicht schlauer als ich“
Außerdem kann man mit der aktuellen Technik mehrere Agenten gleichzeitig mit einer Geschwindigkeit von 1k Token pro Sekunde laufen lassen
- So eine Erfahrung hätte ich auch gern gemacht
  Ich habe Claude Code auf Basis von Opus 4.6 ein Refactoring von React-Code machen lassen, konkret useState/useEffect → useMemo
  Der Plan war hervorragend, aber in einem Teil des Codes wurden Variablendeklarationen an die falsche Stelle gesetzt, wodurch undefined-Referenzen entstanden
  Als ich das korrigieren wollte, versuchte es stattdessen die Struktur stark umzubauen, also habe ich es am Ende manuell behoben
  Insgesamt hat es zwar Zeit gespart, war aber eine ziemlich nervige Erfahrung
- Mich würde interessieren, was du gebaut hast
  Ich habe mit Opus 4.6 versucht, ein Test-Harness für ein Datenbank-Diff-Tool zu bauen, aber stattdessen wurden Tests für ein anderes bestehendes Tool erzeugt
  Der Testcode rief die eigentlichen Funktionen nicht auf, sondern implementierte die Logik direkt selbst
  Erst nach 4 Stunden und 75 Dollar hatte ich etwas, das gerade so lief, aber die Qualität war nicht besonders
  Bei uns in der Firma hieß es auch, wir sollten das Budget für Claude-Nutzung erhöhen, aber alle kämpfen mit ähnlichen Problemen
  Im Moment ist es deutlich effizienter für partielle Änderungen oder Debugging in VS Studio
- Ich bin einmal in eine KI-Schleife geraten
  Es ging um ein Berechnungsproblem zur Ablagerung von Sediment in einem Gelände-Wassertank, und Opus wiederholte ständig drei widersprüchliche Erklärungen
  Auch nach drei Versuchen steckte es noch in derselben Schleife fest, also habe ich es schließlich mit einem brute-force-Ansatz erzwungen gelöst
  Ein Mensch wäre wahrscheinlich spätestens beim zweiten Mal nicht in so eine Schleife geraten
- Für mich ist Opus 4.6 schon auf AGI-Niveau
  Es folgt nicht nur Anweisungen, sondern schlägt von sich aus Verbesserungsideen vor, um die niemand gebeten hat
Der Kern dieses Updates ist, dass für das gesamte 1M-Token-Fenster Standardpreise gelten und 600 Bilder/PDF-Seiten unterstützt werden
Für Claude-Code-Nutzer ist das eine große Veränderung
- Ich frage mich, ob es überhaupt sinnvoll ist, das 1M-Fenster komplett auszureizen
  Bei mir war es stabiler, unter 40 % zu bleiben (also etwa 80k Token), ähnlich wie in der Forschung von Dex Horthy
  Das Video „No vibes allowed“ gibt es hier
- Wir nutzen das 1M-Fenster in der Firma tatsächlich für die Arbeit
  Bis etwa 700k Token war es okay, aber darüber hinaus wirkte es allmählich spürbar träger
  Es ist stabiler, es eher im Pair-Programming-Modus als für vollständige Automatisierung zu verwenden
- Je größer der Kontext, desto höher die Kosten für Eingabetoken
  800k Input kosten das Achtfache von 100k, also kann es ohne Cache schnell zu einer API-Kostenexplosion kommen
- Jemand machte den Witz: „Ist ein Bild dann 1.666 Wörter wert?“
- Bei mir ist die Code-Qualität im 1M-Fenster stark eingebrochen
  Während der Unterhaltung wird der Kontext häufig vergessen
Es wurde die Meinung geäußert, dass es besser sei, den Code einfach selbst zu schreiben
Meine Karriere hat sich von Python zu C/C++ verlagert
In Python ist Opus manchmal besser als ich, aber im Embedded-Bereich ist es noch auf Junior-Niveau
Ich denke, das liegt letztlich an der Qualität der Trainingsdaten
Deshalb glaube ich nicht, dass LLMs Hardware-Ingenieure so bald ersetzen werden
Ich habe CI-Checks gebaut, um das Thrashing-Problem von KI-generiertem Code zu verhindern
Beim wiederholten Beheben fehlschlagender Tests fügen Agenten oft Phantom-Imports oder deprecated APIs ein
Deshalb lasse ich bei jedem PR einen leichten Scan laufen, der nicht existierende npm-Pakete oder Kontextabweichungen aufspürt
Klassische statische Analyse schaut nur auf die Syntax, aber KI-Code ist oft semantisch falsch
Ich denke, solche prüfungen auf Basis von Domänenwissen werden künftig unverzichtbar sein
Jemand fragte, warum die Leistung in der Nähe von 100k Token nachlässt
Viele meinten, der tatsächlich nutzbare Kontext sei kleiner
- Bei Opus 4.6 habe ich so einen Leistungsabfall kaum bemerkt
  Vielleicht ist das auch nur eine Fehleinschätzung, weil ältere Erfahrungen nachwirken
- Meiner Erfahrung nach ist context rot weiterhin real
  Ob man 90k Token in einem 100k- oder 1M-Fenster nutzt, es wird ähnlich schlecht
  In großen Codebasen ist die Prompt-Qualität entscheidend
- Ich glaube, die Benchmark-Grafik ist bereits die Antwort selbst
- Da die Aufmerksamkeits(attention)-Komplexität bei Transformern quadratisch mit der Kontextgröße wächst, braucht man für 1M Token verschiedene Näherungsverfahren, und das könnte der Grund für den Leistungsabfall sein
In Claude Code 2.1.75 ist die Unterscheidung zwischen Standard-Opus und 1M-Opus verschwunden
Im Pro-Tarif sieht es ebenfalls so aus, tatsächlich gibt es aber weiterhin Einschränkungen
Vermutlich ist das eine Strategie von Anthropic als Reaktion auf den Wettbewerb mit dem 1M-Fenster von GPT 5.4
- In Max 20x existiert es weiterhin als separates Modell
- Im Pro-Tarif ist der 1M-Kontext weiterhin kostenpflichtig zusätzlich
Die Preisgestaltung von Claude ist seltsam
Der 5X-Plan kostet exakt das Fünffache des vorherigen Plans
Normalerweise gibt es bei größeren Abnahmemengen Rabatt, hier aber nicht
- Bei Anthropic übersteigt die Nachfrage bereits das Angebot, daher müssen sie die Nutzung nicht zusätzlich ankurbeln
  Vermutlich halten sie es eher für besser, wenn fünf Personen es aufteilen, statt dass eine Person das Fünffache nutzt
- Der 5X-Plan dient wohl nur als Lockangebot, und eigentlich soll der 20x-Plan verkauft werden
- Jemand machte den Witz: „Das holen wir dann über die Menge rein“
- Es gab auch die Meinung, dass beide Pläne gute subventionierte Deals seien
Als ich es heute ausprobiert habe, war es wirklich eine interessante Veränderung
Man kann jetzt mehrere parallele Subagent-Sitzungen in einer einzigen Master-Sitzung unterbringen
Opus 1M soll ungefähr dem 256k-Niveau von GPT 5.4 entsprechen, aber mit kaum Qualitätsverlust
Allerdings fällt es nicht so abrupt ab wie Modelle aus q4 ’25
- Ich habe Sonnet 4.5 1M oft verwendet; die Leistung war ähnlich, aber die Geschwindigkeit war deutlich höher
  Vermutlich, weil es Token offensiver genutzt hat, statt daran zu sparen
- Es gab auch einen Kommentar mit der Frage, ob privat oder über die Firma bezahlt wird
  Die Firma unterstütze nur GitHub Copilot
Es wurde gefragt, ob lange Sitzungen das Token-Budget schnell aufbrauchen,
weil mit zunehmender Gesprächslänge der frühere Kontext immer wieder mitgesendet wird
- Ja. Selbst mit Cache kosten 800k Token etwa 0,40 $ pro Anfrage und summieren sich schnell
  Bei häufigen Tool-Aufrufen kann das mehrmals pro Minute abgerechnet werden
- Wenn man Context Caching gut nutzt, lassen sich die Kosten deutlich senken
  Bis zu 900k Token können gecacht werden

1M-Kontext jetzt allgemein verfügbar in Opus 4.6 und Sonnet 4.6

Überblick zur allgemeinen Verfügbarkeit von 1M-Kontext

Integration in Claude Code

Modellleistung und Genauigkeit

Praktische Anwendungsfälle

Verfügbare Plattformen und Einstieg

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare