- Verwendet dasselbe Opus-4.6-Modell, ändert aber die API-Konfiguration, um die Latenz zu minimieren
- Optimiert für zeitkritische interaktive Aufgaben wie schnelle Iterationen und Live-Debugging
- In der CLI oder der VS-Code-Erweiterung mit
/fastein-/ausschalten oder in der Benutzerkonfigurationsdatei mit"fastMode": truedauerhaft aktivieren - Bei Aktivierung erfolgt automatisch der Wechsel zu Opus 4.6, dazu werden eine Statusmeldung und das Symbol
↯angezeigt - Im Fast Mode sind die Tokenpreise höher als bei standardmäßigem Opus 4.6
- Bei Kontexten unter 200K gelten $30/MTok für Eingabe und $150/MTok für Ausgabe (Standard: $5 Eingabe, $25 Ausgabe)
- Bei Kontexten über 200K gelten $60/MTok für Eingabe und $225/MTok für Ausgabe (Standard: $10 Eingabe, $37.5 Ausgabe)
- Bis zum 16.2. gilt ein Rabatt von 50 %
- Für den Fast Mode gelten eigene Rate Limits; bei Überschreitung des Limits oder aufgebrauchtem Guthaben erfolgt automatisch ein Fallback auf den Standardmodus
- Der Fast Mode wird als Research Preview angeboten; Funktionen und Preise können sich ändern
3 Kommentare
Hacker-News-Kommentare
Die Geschwindigkeit ist 2,5-mal höher, aber der Preis ist 6-mal so hoch
Das ist ein ziemlich teurer Aufpreis. Vor allem ist Gemini 3 Pro bei der Token-Geschwindigkeit pro Sekunde 1,8-mal schneller als Opus 4.6, kostet aber nur etwa das 0,45-Fache
Die Coding-Leistung ist allerdings schwächer, und Gemini CLI hat noch nicht die Agentenfähigkeiten von Claude Code
Letztlich ist das eine interessante Struktur, die große Kunden (Whales) dazu bringt, schnell Geld auszugeben
Ein langsamer Modus wäre gut. Gemeint ist eine Funktion, mit der man Jobs auf günstigen Spot-GPUs zur geplanten Ausführung einreihen kann
Ich starte oft Prozesse in der Mittagspause oder vor Feierabend; sie müssen nicht sofort laufen. Es reicht, wenn sie günstig auf ungenutzten GPUs laufen
In diesem Modus kann man das verbleibende Kontingent eines Abos nicht nutzen
Die Nutzung des Fast Mode wird immer separat berechnet; unabhängig von den im Tarif enthaltenen Tokens fallen Zusatzkosten ab dem ersten Token an
Aktuell gibt es eine Aktion mit 50 US-Dollar kostenlosem Zusatzkontingent
Laut dem Tool ccusage kann man auf API-Basis auf bis zu 200 US-Dollar pro Tag kommen. Bei 6-fachen Gebühren sind 50 US-Dollar in 20 Minuten weg
Für mich wird diese Funktion wohl nicht besonders nützlich sein
Der Engpass ist nicht das Modell, sondern die Geschwindigkeit, mit der ich den vom LLM erzeugten Code verstehe
Wenn man sich das Dokument „Wann man Fast Mode verwenden sollte“ ansieht,
Diese Unterscheidung scheint beabsichtigt zu sein. Ob das Preismodell vernünftig ist, bleibt aber fraglich
Wer auf Preis-Leistung achtet, wird das wohl über parallele Ausführung lösen
Mein üblicher Workflow ist in Planungsphase und Umsetzungsphase aufgeteilt
Fast Mode dürfte vor allem in der Planungsphase nützlich sein
Ich hätte gern nicht nur „Kontext zurücksetzen und dann im Fast Mode ausführen“,
sondern auch eine Option „Kontext zurücksetzen und dann mit normaler Geschwindigkeit ausführen“
Ein explorativer Agent darf ruhig langsam sein, aber wenn man Pläne schnell iterieren kann, wäre das viel effizienter
Ein normales Pro-Konto ist faktisch ein langsamer Modus
Ich teste gerade Kimi2.5 CLI; das ist schnell und bietet auch ein Web-Interface, sodass man es selbst in einer VPN-Umgebung remote nutzen kann
Inzwischen könnte man Hacker News wohl einfach per CNAME auf den Claude-Marketing-Blog zeigen lassen
Ich frage mich, woher der Geschwindigkeitsgewinn kommt. Nur durch Priorisierungsanpassungen scheint das schwer erklärbar
Es könnte neue Hardware sein, etwa Groq oder Cerebras. Dass es nur in einigen Clouds angeboten wird, spricht dafür
Ich frage mich auch, ob LLM-Anbieter künftig „Geschwindigkeit vs. Intelligenz“ getrennt bepreisen werden
Größere Batches erhöhen die Parallelität, machen einzelne Anfragen aber langsamer.
Im SemiAnalysis-InferenceMAX™-Diagramm sieht man, dass es eine Pareto-Kurve zwischen Durchsatz pro GPU und Token-Geschwindigkeit gibt
Nachdem ich den Beitrag „Claude hat einen C-Compiler gebaut“ gesehen habe, frage ich mich, wie schnell die interne Inferenz in Labs wie Anthropic und OpenAI ist
Je höher die Inferenzgeschwindigkeit, desto leichter lässt sich der Softwaremarkt dominieren
Wenn Anthropic eine 2,5-fache Geschwindigkeit öffentlich macht, nutzen sie intern vielleicht schon einen Modus, der 5- bis 10-mal schneller ist
In einer Zukunft, in der Agenten miteinander verhandeln, gewinnt die schnellste Rechenleistung
Einige Server könnten den Gesamtdurchsatz geopfert haben, um einzelne Anfragen zu beschleunigen.
Möglicherweise läuft das auch auf einer neuen Hardwaregeneration
Realistisch betrachtet hat man durch Parallelisierung eine 2,5-fache Beschleunigung erreicht
„Welche Aufgabe wäre als Nächstes gut?“
Auf einmal wurden zusätzlich 3,46 $ berechnet, und es scheint nicht durch das Abo-Modell abgedeckt zu sein.
Vor Kurzem haben sie wohl auch die 50 $ gegeben, damit man genau das hier mal ausprobiert, lol
Jetzt wird KI wohl immer mehr etwas, das nur noch Reiche nutzen ...