Token-Kostenrechner für Opus 4.6 und Opus 4.7
(tokens.billchambers.me)- Ein Rechentool zur Analyse des Problems, dass derselbe Prompt durch den neuen Tokenizer von Opus 4.7 als mehr Tokens gezählt wird
- Derselbe Input wird je nach Inhaltstyp auf 1,0- bis 1,35-mal so viele Tokens abgebildet, wodurch sich die Kosten pro Anfrage erhöhen, selbst wenn die Wortwahl unverändert bleibt
- Tatsächliche Auswertungen zeigen, dass bei Opus 4.7 gegenüber Opus 4.6 die durchschnittlichen Anfrage-Tokens und die durchschnittlichen Anfragekosten jeweils um +37,4 % steigen
- Auf Basis der letzten 50 Fälle reicht die Spanne von mindestens +19,0 % bis maximal +86,2 %, wobei Fälle im Bereich von +30 % und +40 % breit verteilt sind
- Auf dieser Seite kann man Unterhaltungen, System-Prompts und Text einfügen, um den Unterschied der Token-Zahl zwischen Opus 4.7 und 4.6 sowie die Kosten nach aktuellem Preisstand konkret zu vergleichen
Hintergrund zur Entstehung dieses Tools
- In der Release-Ankündigung zu Opus 4.7 wurde es als direktes Upgrade gegenüber Opus 4.6 vorgestellt, es gibt jedoch zwei Änderungen, die den Token-Verbrauch beeinflussen
- Durch den aktualisierten Tokenizer wird derselbe Input je nach Inhaltstyp auf 1,0- bis 1,35-mal so viele Tokens abgebildet
- Bei hohen effort-Levels, insbesondere in späten Turns agentischer Umgebungen, denkt das Modell stärker nach, wodurch die Zahl der Output-Tokens steigt
- Die Zuverlässigkeit bei schwierigen Problemen verbessert sich zwar, hat aber direkte Auswirkungen auf eine tokenbasierte Kostenstruktur
Auswirkungen auf Nutzer
- Selbst bei identischem Prompt-Text wird Opus 4.7 mit mehr Tokens gezählt, wodurch die Kosten pro Anfrage steigen, auch wenn die Formulierung unverändert bleibt
- Mit Tokenomics lassen sich beliebige Unterhaltungen, System-Prompts und Texte einfügen, um den Unterschied der Token-Zahl zwischen Opus 4.7 und 4.6 direkt zu prüfen
- Auf Basis der aktuellen Preise wird der konkrete Kostenunterschied berechnet
Seite mit Community-Durchschnittswerten
- Auf der Seite
/leaderboardwerden anonymisierte Vergleichsdaten der Tool-Nutzer aggregiert - So lassen sich auf Grundlage realer Nutzung die durchschnittlichen Token-Zuwachsraten nach verschiedenen Prompt-Typen prüfen
Wissenswertes
- Prompt-Text wird nicht gespeichert: Die Eingaben werden im Browser geparst, dann an den Server gesendet und an die Token-Counting-API von Anthropic weitergeleitet; der Prompt-Text wird nicht in der DB gespeichert, sondern nur anonyme Token-Count-Metriken
- Kein offizielles Produkt von Anthropic: Erstellt von Bill Chambers, ohne Partnerschaft, Empfehlung oder Sponsoring durch Anthropic
- Open Source: Der vollständige Quellcode ist auf GitHub (
bllchmbrs/tokensmatter) verfügbar, Beiträge und Feedback sind willkommen
Community-Durchschnitt
- Auf Basis anonym eingereichter Vergleiche realer Anfragen werden die Unterschiede bei Anfrage-Tokens und Anfragekosten von Opus 4.7 gegenüber Opus 4.6 aggregiert
- Aggregation auf Grundlage von insgesamt 425 Einreichungen
- Die Liste der jüngsten Vergleiche umfasst die letzten 50 Fälle und ist nach Aktualität sortiert
- Durchschnittliche Veränderungsrate der Anfrage-Tokens: +37,4 %
- Durchschnittliche Veränderungsrate der Anfragekosten: +37,4 %
- Durchschnittliche Anfragegröße: 369 / 495
- Im Original gibt es keine zusätzliche Erklärung zu diesen beiden Werten
Jüngste anonyme Vergleichsfälle
- In der Tabelle der letzten 50 Fälle ist bei den meisten Einträgen derselbe Anstieg bei Anfrage-Tokens in Opus 4.7 und Kosten verzeichnet
- Beispiel 1: Einreichung
6b5d3ebf, Anfrage 23 → 31, Kosten $0.000345 → $0.000465, Veränderung +34,8 % - Beispiel 2: Einreichung
1363973a, Anfrage 99 → 130, Kosten $0.001485 → $0.001950, Veränderung +31,3 % - Beispiel 3: Einreichung
17a9645e, Anfrage 16 → 20, Kosten $0.000240 → $0.000300, Veränderung +25,0 %
- Beispiel 1: Einreichung
- Auch bei kleinen Anfragen ist der Anstieg sichtbar
- Einreichung
10c3149a, Anfrage 8 → 14, Kosten $0.000120 → $0.000210, Veränderung +75,0 % - Einreichung
8f58e536, Anfrage 8 → 13, Kosten $0.000120 → $0.000195, Veränderung +62,5 % - Einreichung
942f5d38, Anfrage 12 → 19, Kosten $0.000180 → $0.000285, Veränderung +58,3 %
- Einreichung
- Ähnliche Anstiege wiederholen sich auch bei mittelgroßen Anfragen
- Einreichung
67f5f437, Anfrage 188 → 275, Kosten $0.002820 → $0.004125, Veränderung +46,3 % - Einreichung
04249c86, Anfrage 176 → 256, Kosten $0.002640 → $0.003840, Veränderung +45,5 % - Einreichung
af25da70, Anfrage 269 → 501, Kosten $0.004035 → $0.007515, Veränderung +86,2 %
- Einreichung
- Ein ähnliches Anstiegsmuster zeigt sich auch bei großen Anfragen
- Einreichung
c5d75d71, Anfrage 2,263 → 3,282, Kosten $0.0339 → $0.0492, Veränderung +45,0 % - Einreichung
4db385b5, Anfrage 1,592 → 2,205, Kosten $0.0239 → $0.0331, Veränderung +38,5 % - Einreichung
68375705, Anfrage 4,449 → 6,434, Kosten $0.0667 → $0.0965, Veränderung +44,6 %
- Einreichung
- Es sind zahlreiche Einreichungen mit identischen Werten enthalten
- Fälle mit Anfrage 175 → 221, Kosten $0.002625 → $0.003315, Veränderung +26,3 % wiederholen sich bei mehreren Einreichungs-IDs
- Fälle mit Anfrage 996 → 1,392, Kosten $0.0149 → $0.0209, Veränderung +39,8 % wiederholen sich bei mehreren Einreichungs-IDs
- Fälle mit Anfrage 43 → 61, Kosten $0.000645 → $0.000915, Veränderung +41,9 % wiederholen sich bei mehreren Einreichungs-IDs
1 Kommentare
Hacker-News-Kommentare
Ich finde, für einen fairen Vergleich sollte man sich die Gesamtkosten ansehen. 4.7 erzeugt deutlich weniger Output-Token als 4.6, und auch die Inferenzkosten scheinen ziemlich gesunken zu sein. Im Vergleich von Artificial Analysis wirkt 4.7 etwas günstiger als 4.6, und 4.5 liegt fast bei der Hälfte. Besonders auffällig ist, dass die Reasoning-Kosten von 4.6 zu 4.7 fast halbiert wurden. Bei realen Workloads wie Claude Code scheinen aber sowohl Input- als auch Reasoning-Anteil hoch zu sein, daher ist für mich noch schwer abzuschätzen, wie sich höherer Input-Preis und niedrigere Reasoning-Kosten gegeneinander aufheben. Aufgaben mit viel Reasoning könnten günstiger sein, Aufgaben mit wenig Reasoning dagegen eher teurer. Für solche Jobs würde ich dann lieber Codex verwenden
Subjektiv spüre ich beim Wechsel von 4.6 auf 4.7 fast keine Leistungssteigerung, aber die Geschwindigkeit des Limit-Verbrauchs ist sehr deutlich. Gestern habe ich ein 5-Stunden-Limit in 2 Stunden verbraucht, und als ich für ein Refactoring den batched mode eingeschaltet habe, waren in 5 Minuten 30 % des Limits weg, sodass ich abgebrochen habe. Danach habe ich auf eine serielle Vorgehensweise umgestellt, und es wurde zwar etwas besser, aber es war trotzdem klar, dass der Verbrauch viel schneller war als bei 4.6. Aktuell fühlt es sich an, als koste schon eine einzelne Unterhaltung etwa 5 % des 5-Stunden-Limits; früher waren es eher 1–2 %. Ich habe den Max-5x-Plan und damit noch genug Puffer beim Wochenlimit, also ist es für mich noch tragbar, aber ich hätte gern, dass das zumindest transparenter erklärt oder verbessert wird. Auch die effort-Einstellung ist weiterhin viel zu intransparent und dadurch praktisch nur begrenzt hilfreich
compactoderclearnutzt. Selbst mitcompactverschwinden die Kosten nicht vollständig; es scheint nur die Input-Token etwas zu reduzieren. Ob die Kompaktierung selbst kostenlos ist, würde mich allerdings auch interessierenWenn das Ergebnis gut wäre, würde ich auch mehr bezahlen, aber im Moment fühlt es sich so an, als würde Anthropic die Token-Nutzung durch eine Art intermittierende Verstärkung immer weiter antreiben. Die Claude-Modelle machen definitiv mehr Spaß als GPT oder Codex, haben mehr Persönlichkeit und ein besseres Gespür für Design und Ästhetik. Das gemeinsame vibe-coding fühlt sich fast spielerisch an. Aber das Resultat läuft fast immer auf dieselben Probleme hinaus: Tests werden gelöscht, damit etwas besteht, Duplikat-Code nimmt zu, Abstraktionen sind falsch, Typensicherheit wird abgeschaltet und harte Anforderungen werden ignoriert. Diese Probleme sind auch mit 4.7 nicht gelöst, und unabhängig davon, was Benchmarks sagen, bleiben sie in der Praxis bestehen. Ich bin mir nicht einmal sicher, ob das Unternehmen überhaupt den Willen hat, das zu beheben
Dieser Vergleich sieht für mich so aus, als ob über die Token-Counting-API die Prompt-Länge auf zwei Arten gemessen wurde, um nur die Tokenizer-Änderung isoliert zu messen. Ein intelligenteres Modell kann aber auch kürzer antworten und dadurch weniger Output-Token erzeugen; wenn man das mit einbezieht, lässt sich aus diesem Vergleich allein nicht wirklich schließen, dass 4.7 in der Praxis günstiger ist. Es kann am Ende natürlich teurer oder billiger sein, aber für eine Einschätzung im realen Einsatz hilft dieses Material meiner Meinung nach nur begrenzt
Vorläufig werde ich in VSCode Copilot wohl weiterhin Opus 4.5 als Hauptmodell nutzen. In meinem Workflow gebe ich dem Agenten meist ziemlich detaillierte Anweisungen, aber die meisten Agenten versuchen ständig, mehr zu tun als nötig. Von allem, was ich ausprobiert habe, konnte Opus 4.5 am besten selbst aus unvollständigen Prompts den gewünschten Rahmen herauslesen und dann genau so viel wie nötig tun. 4.6 brauchte länger, dachte übermäßig viel nach und vergrößerte auch den Änderungsumfang; ähnliche Probleme hatte ich bei den stärkeren GPTs ebenfalls. Andere Modelle wie Sonnet waren bei weniger präzisen Instruktionen schlechter darin, meine Absicht herauszulesen als Opus. Deshalb habe ich das Experimentieren beendet und einfach bei 4.5 geblieben; teuer war es zwar, aber ich fand es den Preis wert. Wenn 4.7 jetzt in VSCode Copilot sowohl 4.5 als auch 4.6 ersetzt und dazu noch ein 7,5-facher Modifier kommt, wirkt das aus meiner Sicht eher langsamer und teurer und damit wie ein Rückschritt
Immer mehr habe ich den Eindruck, dass die Annahme naiv ist, man könne White-Collar-Arbeit allein durch Skalierung von LLMs vollständig ersetzen. Attention-Mechanismen oder Hopfield-Netzwerke modellieren anscheinend nur einen Teil des menschlichen Gehirns, und die derzeit überall auftauchenden agentic-memory-Erweiterungen wirken für mich geradezu wie ein Gegenbeweis dafür, dass der aktuelle SOTA-Transformer allein nicht ausreicht. Selbst wenn man sich nur auf den Textbereich beschränkt, scheinen die Grenzen sichtbar zu werden; vielleicht wiederhole ich damit nur die Argumentation von Yann LeCun
Gestern wollte ich mit Opus 4.7 Best Practices für eine Single-Page-Website zusammenstellen, und nach nur etwa 4 Prompts war mein Tageslimit überschritten. Nach weiteren ungefähr 7 lag ich auch über dem Wochenlimit. Der gesamte HTML/CSS/JS-Code hatte nicht einmal 300 Zeilen, deshalb war ich ziemlich schockiert, wie schnell das Nutzungslimit aufgebraucht war
Der Titel sollte wohl eher 4.6 to 4.7 heißen statt 4.7 zu 4.6
Laut der Erläuterung von Artificial Analysis kostete es bei Opus 4.7 mit Adaptive Reasoning und Max Effort etwa 4.406 Dollar, den Intelligence Index zu fahren, und das war rund 11 % günstiger als bei 4.6 mit etwa 4.970 Dollar. Der Score lag 4 Punkte höher, und dieser Unterschied sei auch unter Berücksichtigung des neuen Tokenizers darauf zurückzuführen, dass weniger Output-Token anfielen. Der cached input discount ist in dieser Berechnung allerdings noch nicht enthalten; laut Aussage soll er bald in die Kostenkalkulation aufgenommen werden
Mein Eindruck ist, dass die Gesprächsqualität unerwartet stärker gestiegen ist. Das Modell wirkt selbstkritischer, prüft Vorschläge kritischer und trifft meist auch bessere Standardentscheidungen. Vielleicht ist der Unterschied für mich weniger auffällig, weil ich nicht so viele verschiedene Harnesses ausprobiert habe wie andere hier, aber für weniger vorbereitete Nutzer könnte der Mehrwert sogar größer sein. Schon bei einfachen Aufgaben wie dem Nachvollziehen jüngerer Review-Verläufe oder dem Beobachten von Produktdiskussionen war 4.6 zwar nützlich, konnte aber leicht zum foot-gun werden, während 4.7 eher wie ein Senior-Mitglied des Teams aufzutreten scheint