1 Punkte von GN⁺ 2026-03-14 | 1 Kommentare | Auf WhatsApp teilen
  • Claude Opus 4.6 und Sonnet 4.6 unterstützen jetzt ein Kontextfenster von 1 Million Token (1M) zum Standardpreis, die volle Spanne ist ohne separates Premium nutzbar
  • Die Preise bleiben unverändert: Für Opus 4.6 gelten $5/$25, für Sonnet 4.6 $3/$15 (für Eingabe/Ausgabe); Anfragen mit 9K oder 900K werden im gleichen Verhältnis berechnet
  • Durch die 6-fach erhöhte Grenze für Medieneingaben können jetzt bis zu 600 Bilder oder PDF-Seiten auf einmal verarbeitet werden; außerdem ist dies sofort auch in Azure Foundry und Google Vertex AI nutzbar
  • Max-, Team- und Enterprise-Nutzer von Claude Code können 1M-Kontext automatisch verwenden, was die Sitzungskomprimierung reduziert und die Gesprächskontinuität verbessert
  • Dies wird als Funktion bewertet, die Genauigkeit und Effizienz steigert, während komplexer langfristiger Kontext wie große Codebasen, Verträge und Betriebslogs erhalten bleibt

Überblick zur allgemeinen Verfügbarkeit von 1M-Kontext

  • Opus 4.6 und Sonnet 4.6 bieten im Claude Platform jetzt ein Kontextfenster von 1M zum Standardpreis
    • Für Opus 4.6 gelten $5 (Eingabe) / $25 (Ausgabe) pro Million Token, für Sonnet 4.6 $3 / $15
    • Keine unterschiedlichen Tarife je nach Größe der Anfrage
  • Der Premiumzuschlag für langen Kontext entfällt, bei allen Kontextlängen bleibt derselbe Durchsatz erhalten
  • Grenze für Medieneingaben 6-fach erhöht: Unterstützung für bis zu 600 Bilder oder PDF-Seiten
  • Kein Beta-Header erforderlich, auch Anfragen über 200K Token werden automatisch verarbeitet

Integration in Claude Code

  • Bei Verwendung von Opus 4.6 ist 1M-Kontext in den Max-, Team- und Enterprise-Plänen von Claude Code automatisch aktiviert
    • Weniger Komprimierung (Compaction) innerhalb einer Sitzung
    • Zuvor war zusätzlicher Verbrauch erforderlich, jetzt ist es standardmäßig enthalten

Modellleistung und Genauigkeit

  • Opus 4.6 erreicht 78,3 % nach MRCR v2 und liefert damit die beste Leistung unter Modellen mit derselben Kontextlänge
  • Auch bei 1M-Kontext bleiben Genauigkeit erhalten und die Suchleistung in langen Texten verbessert
  • Große Codebasen, Verträge und langfristige Agent-Logs können unter Beibehaltung des vollständigen Kontexts verarbeitet werden
    • Das gesamte Gespräch bleibt erhalten, ohne Zusammenfassungen oder Zurücksetzen des Kontexts

Praktische Anwendungsfälle

  • Wissenschaftliche Forschung: Hunderte wissenschaftliche Arbeiten, mathematische Frameworks und Simulationscode lassen sich in einer Sitzung integriert analysieren (Alex Wissner-Gross)
  • Juristische Arbeit: Mehrere Versionen eines 100-seitigen Vertrags können in einer Sitzung verglichen werden (Bardia Pourvakil)
  • Analyse von Betriebssystemen: Während der Störungsbehebung bleiben alle Signale und Hypothesen auf einen Blick erhalten (Mayank Agarwal)
  • AI-Forschung und Code-Review: Große Diff-Dateien können in einem Durchgang verarbeitet werden, was die Qualität verbessert (Adhyyan Sekhsaria)
  • Datenanalyse und Debugging: Bei der Suche in Datadog, Datenbanken und Quellcode bleiben Details ohne Informationsverlust erhalten (Anton Biryukov)
  • Höhere Agenten-Effizienz: 15 % weniger Kontextkomprimierungsereignisse, frühe Informationen bleiben auch in langen Sitzungen erhalten (Jon Bell)

Verfügbare Plattformen und Einstieg

  • 1M-Kontext ist sofort nutzbar auf Claude Platform, Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry
  • Für Nutzer von Claude Code Max, Team und Enterprise auf Basis von Opus 4.6 gilt standardmäßig 1M-Kontext
  • Details finden sich in der offiziellen Dokumentation (documentation) und auf der Seite zu Preisen (pricing)

1 Kommentare

 
GN⁺ 2026-03-14
Hacker-News-Kommentare
  • Opus 4.6 ist wirklich auf erstaunlichem Niveau
    Egal ob Frontend, Backend oder Algorithmen, es erledigt praktisch jede Aufgabe gut
    Wenn man mit einem PRD startet, einen Schritt-für-Schritt-Plan erstellt und ihn nacheinander ausführt, kommt in wenigen Stunden ein tatsächlich funktionierendes Ergebnis heraus
    Es war die erste KI, bei der ich dachte: „Das ist vielleicht schlauer als ich“
    Außerdem kann man mit der aktuellen Technik mehrere Agenten gleichzeitig mit einer Geschwindigkeit von 1k Token pro Sekunde laufen lassen

    • So eine Erfahrung hätte ich auch gern gemacht
      Ich habe Claude Code auf Basis von Opus 4.6 ein Refactoring von React-Code machen lassen, konkret useState/useEffect → useMemo
      Der Plan war hervorragend, aber in einem Teil des Codes wurden Variablendeklarationen an die falsche Stelle gesetzt, wodurch undefined-Referenzen entstanden
      Als ich das korrigieren wollte, versuchte es stattdessen die Struktur stark umzubauen, also habe ich es am Ende manuell behoben
      Insgesamt hat es zwar Zeit gespart, war aber eine ziemlich nervige Erfahrung
    • Mich würde interessieren, was du gebaut hast
      Ich habe mit Opus 4.6 versucht, ein Test-Harness für ein Datenbank-Diff-Tool zu bauen, aber stattdessen wurden Tests für ein anderes bestehendes Tool erzeugt
      Der Testcode rief die eigentlichen Funktionen nicht auf, sondern implementierte die Logik direkt selbst
      Erst nach 4 Stunden und 75 Dollar hatte ich etwas, das gerade so lief, aber die Qualität war nicht besonders
      Bei uns in der Firma hieß es auch, wir sollten das Budget für Claude-Nutzung erhöhen, aber alle kämpfen mit ähnlichen Problemen
      Im Moment ist es deutlich effizienter für partielle Änderungen oder Debugging in VS Studio
    • Ich bin einmal in eine KI-Schleife geraten
      Es ging um ein Berechnungsproblem zur Ablagerung von Sediment in einem Gelände-Wassertank, und Opus wiederholte ständig drei widersprüchliche Erklärungen
      Auch nach drei Versuchen steckte es noch in derselben Schleife fest, also habe ich es schließlich mit einem brute-force-Ansatz erzwungen gelöst
      Ein Mensch wäre wahrscheinlich spätestens beim zweiten Mal nicht in so eine Schleife geraten
    • Für mich ist Opus 4.6 schon auf AGI-Niveau
      Es folgt nicht nur Anweisungen, sondern schlägt von sich aus Verbesserungsideen vor, um die niemand gebeten hat
  • Der Kern dieses Updates ist, dass für das gesamte 1M-Token-Fenster Standardpreise gelten und 600 Bilder/PDF-Seiten unterstützt werden
    Für Claude-Code-Nutzer ist das eine große Veränderung

    • Ich frage mich, ob es überhaupt sinnvoll ist, das 1M-Fenster komplett auszureizen
      Bei mir war es stabiler, unter 40 % zu bleiben (also etwa 80k Token), ähnlich wie in der Forschung von Dex Horthy
      Das Video „No vibes allowed“ gibt es hier
    • Wir nutzen das 1M-Fenster in der Firma tatsächlich für die Arbeit
      Bis etwa 700k Token war es okay, aber darüber hinaus wirkte es allmählich spürbar träger
      Es ist stabiler, es eher im Pair-Programming-Modus als für vollständige Automatisierung zu verwenden
    • Je größer der Kontext, desto höher die Kosten für Eingabetoken
      800k Input kosten das Achtfache von 100k, also kann es ohne Cache schnell zu einer API-Kostenexplosion kommen
    • Jemand machte den Witz: „Ist ein Bild dann 1.666 Wörter wert?“
    • Bei mir ist die Code-Qualität im 1M-Fenster stark eingebrochen
      Während der Unterhaltung wird der Kontext häufig vergessen
  • Es wurde die Meinung geäußert, dass es besser sei, den Code einfach selbst zu schreiben

  • Meine Karriere hat sich von Python zu C/C++ verlagert
    In Python ist Opus manchmal besser als ich, aber im Embedded-Bereich ist es noch auf Junior-Niveau
    Ich denke, das liegt letztlich an der Qualität der Trainingsdaten
    Deshalb glaube ich nicht, dass LLMs Hardware-Ingenieure so bald ersetzen werden

  • Ich habe CI-Checks gebaut, um das Thrashing-Problem von KI-generiertem Code zu verhindern
    Beim wiederholten Beheben fehlschlagender Tests fügen Agenten oft Phantom-Imports oder deprecated APIs ein
    Deshalb lasse ich bei jedem PR einen leichten Scan laufen, der nicht existierende npm-Pakete oder Kontextabweichungen aufspürt
    Klassische statische Analyse schaut nur auf die Syntax, aber KI-Code ist oft semantisch falsch
    Ich denke, solche prüfungen auf Basis von Domänenwissen werden künftig unverzichtbar sein

  • Jemand fragte, warum die Leistung in der Nähe von 100k Token nachlässt
    Viele meinten, der tatsächlich nutzbare Kontext sei kleiner

    • Bei Opus 4.6 habe ich so einen Leistungsabfall kaum bemerkt
      Vielleicht ist das auch nur eine Fehleinschätzung, weil ältere Erfahrungen nachwirken
    • Meiner Erfahrung nach ist context rot weiterhin real
      Ob man 90k Token in einem 100k- oder 1M-Fenster nutzt, es wird ähnlich schlecht
      In großen Codebasen ist die Prompt-Qualität entscheidend
    • Ich glaube, die Benchmark-Grafik ist bereits die Antwort selbst
    • Da die Aufmerksamkeits(attention)-Komplexität bei Transformern quadratisch mit der Kontextgröße wächst, braucht man für 1M Token verschiedene Näherungsverfahren, und das könnte der Grund für den Leistungsabfall sein
  • In Claude Code 2.1.75 ist die Unterscheidung zwischen Standard-Opus und 1M-Opus verschwunden
    Im Pro-Tarif sieht es ebenfalls so aus, tatsächlich gibt es aber weiterhin Einschränkungen
    Vermutlich ist das eine Strategie von Anthropic als Reaktion auf den Wettbewerb mit dem 1M-Fenster von GPT 5.4

    • In Max 20x existiert es weiterhin als separates Modell
    • Im Pro-Tarif ist der 1M-Kontext weiterhin kostenpflichtig zusätzlich
  • Die Preisgestaltung von Claude ist seltsam
    Der 5X-Plan kostet exakt das Fünffache des vorherigen Plans
    Normalerweise gibt es bei größeren Abnahmemengen Rabatt, hier aber nicht

    • Bei Anthropic übersteigt die Nachfrage bereits das Angebot, daher müssen sie die Nutzung nicht zusätzlich ankurbeln
      Vermutlich halten sie es eher für besser, wenn fünf Personen es aufteilen, statt dass eine Person das Fünffache nutzt
    • Der 5X-Plan dient wohl nur als Lockangebot, und eigentlich soll der 20x-Plan verkauft werden
    • Jemand machte den Witz: „Das holen wir dann über die Menge rein“
    • Es gab auch die Meinung, dass beide Pläne gute subventionierte Deals seien
  • Als ich es heute ausprobiert habe, war es wirklich eine interessante Veränderung
    Man kann jetzt mehrere parallele Subagent-Sitzungen in einer einzigen Master-Sitzung unterbringen
    Opus 1M soll ungefähr dem 256k-Niveau von GPT 5.4 entsprechen, aber mit kaum Qualitätsverlust
    Allerdings fällt es nicht so abrupt ab wie Modelle aus q4 ’25

    • Ich habe Sonnet 4.5 1M oft verwendet; die Leistung war ähnlich, aber die Geschwindigkeit war deutlich höher
      Vermutlich, weil es Token offensiver genutzt hat, statt daran zu sparen
    • Es gab auch einen Kommentar mit der Frage, ob privat oder über die Firma bezahlt wird
      Die Firma unterstütze nur GitHub Copilot
  • Es wurde gefragt, ob lange Sitzungen das Token-Budget schnell aufbrauchen,
    weil mit zunehmender Gesprächslänge der frühere Kontext immer wieder mitgesendet wird

    • Ja. Selbst mit Cache kosten 800k Token etwa 0,40 $ pro Anfrage und summieren sich schnell
      Bei häufigen Tool-Aufrufen kann das mehrmals pro Minute abgerechnet werden
    • Wenn man Context Caching gut nutzt, lassen sich die Kosten deutlich senken
      Bis zu 900k Token können gecacht werden