13 Punkte von xguru 2026-02-08 | 3 Kommentare | Auf WhatsApp teilen
  • Verwendet dasselbe Opus-4.6-Modell, ändert aber die API-Konfiguration, um die Latenz zu minimieren
  • Optimiert für zeitkritische interaktive Aufgaben wie schnelle Iterationen und Live-Debugging
  • In der CLI oder der VS-Code-Erweiterung mit /fast ein-/ausschalten oder in der Benutzerkonfigurationsdatei mit "fastMode": true dauerhaft aktivieren
  • Bei Aktivierung erfolgt automatisch der Wechsel zu Opus 4.6, dazu werden eine Statusmeldung und das Symbol angezeigt
  • Im Fast Mode sind die Tokenpreise höher als bei standardmäßigem Opus 4.6
    • Bei Kontexten unter 200K gelten $30/MTok für Eingabe und $150/MTok für Ausgabe (Standard: $5 Eingabe, $25 Ausgabe)
    • Bei Kontexten über 200K gelten $60/MTok für Eingabe und $225/MTok für Ausgabe (Standard: $10 Eingabe, $37.5 Ausgabe)
    • Bis zum 16.2. gilt ein Rabatt von 50 %
  • Für den Fast Mode gelten eigene Rate Limits; bei Überschreitung des Limits oder aufgebrauchtem Guthaben erfolgt automatisch ein Fallback auf den Standardmodus
  • Der Fast Mode wird als Research Preview angeboten; Funktionen und Preise können sich ändern

3 Kommentare

 
GN⁺ 2026-02-09
Hacker-News-Kommentare
  • Die Geschwindigkeit ist 2,5-mal höher, aber der Preis ist 6-mal so hoch
    Das ist ein ziemlich teurer Aufpreis. Vor allem ist Gemini 3 Pro bei der Token-Geschwindigkeit pro Sekunde 1,8-mal schneller als Opus 4.6, kostet aber nur etwa das 0,45-Fache
    Die Coding-Leistung ist allerdings schwächer, und Gemini CLI hat noch nicht die Agentenfähigkeiten von Claude Code

    • Wenn der Preis pro Token 6-mal höher ist, ist er pro Sekunde 15-mal höher. Außerdem gilt das für die API; Abo-Tarife sind deutlich günstiger
      Letztlich ist das eine interessante Struktur, die große Kunden (Whales) dazu bringt, schnell Geld auszugeben
    • Gemini ist für Frontend-Arbeit ziemlich ordentlich
    • Statt Gemini CLI kann man auch OpenCode nutzen
  • Ein langsamer Modus wäre gut. Gemeint ist eine Funktion, mit der man Jobs auf günstigen Spot-GPUs zur geplanten Ausführung einreihen kann
    Ich starte oft Prozesse in der Mittagspause oder vor Feierabend; sie müssen nicht sofort laufen. Es reicht, wenn sie günstig auf ungenutzten GPUs laufen

    • Die Batches API läuft zum 50-%-Tarif im Vergleich zur Standard-API
    • OpenAI hatte früher ebenfalls eine ähnliche Batch-Verarbeitungsfunktion
    • Sehe ich genauso. Es wäre gut, wenn man es nachts für 50 % des Preises laufen lassen könnte. In Claude Code ist das aber noch nicht integriert
    • Der bereits rabattierte MAX-Tarif funktioniert faktisch schon wie ein langsamer Modus
    • Wenn es nicht zeitkritisch ist, kann man statt auf GPU auch auf CPU/RAM laufen lassen
  • In diesem Modus kann man das verbleibende Kontingent eines Abos nicht nutzen
    Die Nutzung des Fast Mode wird immer separat berechnet; unabhängig von den im Tarif enthaltenen Tokens fallen Zusatzkosten ab dem ersten Token an
    Aktuell gibt es eine Aktion mit 50 US-Dollar kostenlosem Zusatzkontingent

    • Am Ende ist das kaum nützlich. Selbst mit Claude Max muss man bei TDD den Verbrauch im Blick behalten
      Laut dem Tool ccusage kann man auf API-Basis auf bis zu 200 US-Dollar pro Tag kommen. Bei 6-fachen Gebühren sind 50 US-Dollar in 20 Minuten weg
  • Für mich wird diese Funktion wohl nicht besonders nützlich sein
    Der Engpass ist nicht das Modell, sondern die Geschwindigkeit, mit der ich den vom LLM erzeugten Code verstehe

    • Es gibt viele Leute, die sich den echten Code gar nicht genau ansehen. Wirklich interessante Zeiten
    • Wenn es schnell genug wäre, würde ich eher Fragen stellen als den Code zu lesen, aber so weit ist es noch nicht
    • Wer Code nach „Gefühl“ schreibt, konzentriert sich mehr auf das Ergebnis als auf das Verständnis
    • Wenn man ein gutes Test-Harness und saubere Prüfverfahren hat, kann man dem Code vertrauen, ohne ihn direkt anzusehen
  • Wenn man sich das Dokument „Wann man Fast Mode verwenden sollte“ ansieht,

    • sind lang laufende Agenten oder Hintergrundjobs für den normalen Modus gedacht
    • und Szenarien mit menschlichem Eingriff für den schnellen Modus
      Diese Unterscheidung scheint beabsichtigt zu sein. Ob das Preismodell vernünftig ist, bleibt aber fraglich
    • Schon die API-Preise von Opus sind hoch, daher dürfte es am Ende ein hochpreisiger Service bleiben
      Wer auf Preis-Leistung achtet, wird das wohl über parallele Ausführung lösen
  • Mein üblicher Workflow ist in Planungsphase und Umsetzungsphase aufgeteilt
    Fast Mode dürfte vor allem in der Planungsphase nützlich sein
    Ich hätte gern nicht nur „Kontext zurücksetzen und dann im Fast Mode ausführen“,
    sondern auch eine Option „Kontext zurücksetzen und dann mit normaler Geschwindigkeit ausführen“
    Ein explorativer Agent darf ruhig langsam sein, aber wenn man Pläne schnell iterieren kann, wäre das viel effizienter

  • Ein normales Pro-Konto ist faktisch ein langsamer Modus
    Ich teste gerade Kimi2.5 CLI; das ist schnell und bietet auch ein Web-Interface, sodass man es selbst in einer VPN-Umgebung remote nutzen kann

  • Inzwischen könnte man Hacker News wohl einfach per CNAME auf den Claude-Marketing-Blog zeigen lassen

    • Dann würde man die selbstwerbenden Beiträge von simonw verpassen
    • Tatsächlich gibt es viel mehr Beiträge zu OpenAI. Vielleicht sollte man den Namen eher in AINews ändern
  • Ich frage mich, woher der Geschwindigkeitsgewinn kommt. Nur durch Priorisierungsanpassungen scheint das schwer erklärbar
    Es könnte neue Hardware sein, etwa Groq oder Cerebras. Dass es nur in einigen Clouds angeboten wird, spricht dafür
    Ich frage mich auch, ob LLM-Anbieter künftig „Geschwindigkeit vs. Intelligenz“ getrennt bepreisen werden

    • Dabei erhöht man auf GPUs Batching und Multistreaming, um den Token-Durchsatz zu steigern
      Größere Batches erhöhen die Parallelität, machen einzelne Anfragen aber langsamer.
      Im SemiAnalysis-InferenceMAX™-Diagramm sieht man, dass es eine Pareto-Kurve zwischen Durchsatz pro GPU und Token-Geschwindigkeit gibt
    • Neben Hardware-Upgrades oder Traffic-Priorisierung sind auch verschiedene Anpassungen möglich, etwa ein kleineres Batch-Fenster oder das Halten des KV-Cache auf der GPU
    • Es könnte auch einfach ein prioritätsbasiertes Modell sein, das die Warteschlange überspringt. Damit lässt sich schließlich leicht mehr Geld verdienen
    • Vielleicht wurde es zuerst intern umgesetzt. Tatsächlich wäre es dann nur eine simple Priorisierungsanpassung, und man hat womöglich erwartet, dass es nicht viele externe Kunden geben wird
    • Oder man nutzt neue GPUs wie Nvidia GB300 (Blackwell)
  • Nachdem ich den Beitrag „Claude hat einen C-Compiler gebaut“ gesehen habe, frage ich mich, wie schnell die interne Inferenz in Labs wie Anthropic und OpenAI ist
    Je höher die Inferenzgeschwindigkeit, desto leichter lässt sich der Softwaremarkt dominieren
    Wenn Anthropic eine 2,5-fache Geschwindigkeit öffentlich macht, nutzen sie intern vielleicht schon einen Modus, der 5- bis 10-mal schneller ist
    In einer Zukunft, in der Agenten miteinander verhandeln, gewinnt die schnellste Rechenleistung

    • Anthropic sagt, dass der intern bereits genutzte 2,5-mal schnellere Modus über die offizielle API veröffentlicht wurde
      Einige Server könnten den Gesamtdurchsatz geopfert haben, um einzelne Anfragen zu beschleunigen.
      Möglicherweise läuft das auch auf einer neuen Hardwaregeneration
    • Dass man „10-fache Leistung versteckt hält“, ergibt keinen Sinn. Ein SaaS-Unternehmen im Wettbewerbsmarkt hat dafür keinen Spielraum
      Realistisch betrachtet hat man durch Parallelisierung eine 2,5-fache Beschleunigung erreicht
    • Es wirkt auch ein bisschen wie ein Speed-Geiselmodell, bei dem man die Grundgeschwindigkeit künstlich drosselt, um Nutzer zum Bezahlen für Fast Mode zu bewegen
 
kimjoin2 2026-02-09

„Welche Aufgabe wäre als Nächstes gut?“
Auf einmal wurden zusätzlich 3,46 $ berechnet, und es scheint nicht durch das Abo-Modell abgedeckt zu sein.
Vor Kurzem haben sie wohl auch die 50 $ gegeben, damit man genau das hier mal ausprobiert, lol

 
elbum 2026-02-08

Jetzt wird KI wohl immer mehr etwas, das nur noch Reiche nutzen ...