2 Punkte von GN⁺ 11 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Rechentool zur Analyse des Problems, dass derselbe Prompt durch den neuen Tokenizer von Opus 4.7 als mehr Tokens gezählt wird
  • Derselbe Input wird je nach Inhaltstyp auf 1,0- bis 1,35-mal so viele Tokens abgebildet, wodurch sich die Kosten pro Anfrage erhöhen, selbst wenn die Wortwahl unverändert bleibt
  • Tatsächliche Auswertungen zeigen, dass bei Opus 4.7 gegenüber Opus 4.6 die durchschnittlichen Anfrage-Tokens und die durchschnittlichen Anfragekosten jeweils um +37,4 % steigen
  • Auf Basis der letzten 50 Fälle reicht die Spanne von mindestens +19,0 % bis maximal +86,2 %, wobei Fälle im Bereich von +30 % und +40 % breit verteilt sind
  • Auf dieser Seite kann man Unterhaltungen, System-Prompts und Text einfügen, um den Unterschied der Token-Zahl zwischen Opus 4.7 und 4.6 sowie die Kosten nach aktuellem Preisstand konkret zu vergleichen

Hintergrund zur Entstehung dieses Tools

  • In der Release-Ankündigung zu Opus 4.7 wurde es als direktes Upgrade gegenüber Opus 4.6 vorgestellt, es gibt jedoch zwei Änderungen, die den Token-Verbrauch beeinflussen
    • Durch den aktualisierten Tokenizer wird derselbe Input je nach Inhaltstyp auf 1,0- bis 1,35-mal so viele Tokens abgebildet
    • Bei hohen effort-Levels, insbesondere in späten Turns agentischer Umgebungen, denkt das Modell stärker nach, wodurch die Zahl der Output-Tokens steigt
  • Die Zuverlässigkeit bei schwierigen Problemen verbessert sich zwar, hat aber direkte Auswirkungen auf eine tokenbasierte Kostenstruktur

Auswirkungen auf Nutzer

  • Selbst bei identischem Prompt-Text wird Opus 4.7 mit mehr Tokens gezählt, wodurch die Kosten pro Anfrage steigen, auch wenn die Formulierung unverändert bleibt
  • Mit Tokenomics lassen sich beliebige Unterhaltungen, System-Prompts und Texte einfügen, um den Unterschied der Token-Zahl zwischen Opus 4.7 und 4.6 direkt zu prüfen
  • Auf Basis der aktuellen Preise wird der konkrete Kostenunterschied berechnet

Seite mit Community-Durchschnittswerten

  • Auf der Seite /leaderboard werden anonymisierte Vergleichsdaten der Tool-Nutzer aggregiert
  • So lassen sich auf Grundlage realer Nutzung die durchschnittlichen Token-Zuwachsraten nach verschiedenen Prompt-Typen prüfen

Wissenswertes

  • Prompt-Text wird nicht gespeichert: Die Eingaben werden im Browser geparst, dann an den Server gesendet und an die Token-Counting-API von Anthropic weitergeleitet; der Prompt-Text wird nicht in der DB gespeichert, sondern nur anonyme Token-Count-Metriken
  • Kein offizielles Produkt von Anthropic: Erstellt von Bill Chambers, ohne Partnerschaft, Empfehlung oder Sponsoring durch Anthropic
  • Open Source: Der vollständige Quellcode ist auf GitHub (bllchmbrs/tokensmatter) verfügbar, Beiträge und Feedback sind willkommen

Community-Durchschnitt

  • Auf Basis anonym eingereichter Vergleiche realer Anfragen werden die Unterschiede bei Anfrage-Tokens und Anfragekosten von Opus 4.7 gegenüber Opus 4.6 aggregiert
    • Aggregation auf Grundlage von insgesamt 425 Einreichungen
    • Die Liste der jüngsten Vergleiche umfasst die letzten 50 Fälle und ist nach Aktualität sortiert
  • Durchschnittliche Veränderungsrate der Anfrage-Tokens: +37,4 %
  • Durchschnittliche Veränderungsrate der Anfragekosten: +37,4 %
  • Durchschnittliche Anfragegröße: 369 / 495
    • Im Original gibt es keine zusätzliche Erklärung zu diesen beiden Werten

Jüngste anonyme Vergleichsfälle

  • In der Tabelle der letzten 50 Fälle ist bei den meisten Einträgen derselbe Anstieg bei Anfrage-Tokens in Opus 4.7 und Kosten verzeichnet
    • Beispiel 1: Einreichung 6b5d3ebf, Anfrage 23 → 31, Kosten $0.000345 → $0.000465, Veränderung +34,8 %
    • Beispiel 2: Einreichung 1363973a, Anfrage 99 → 130, Kosten $0.001485 → $0.001950, Veränderung +31,3 %
    • Beispiel 3: Einreichung 17a9645e, Anfrage 16 → 20, Kosten $0.000240 → $0.000300, Veränderung +25,0 %
  • Auch bei kleinen Anfragen ist der Anstieg sichtbar
    • Einreichung 10c3149a, Anfrage 8 → 14, Kosten $0.000120 → $0.000210, Veränderung +75,0 %
    • Einreichung 8f58e536, Anfrage 8 → 13, Kosten $0.000120 → $0.000195, Veränderung +62,5 %
    • Einreichung 942f5d38, Anfrage 12 → 19, Kosten $0.000180 → $0.000285, Veränderung +58,3 %
  • Ähnliche Anstiege wiederholen sich auch bei mittelgroßen Anfragen
    • Einreichung 67f5f437, Anfrage 188 → 275, Kosten $0.002820 → $0.004125, Veränderung +46,3 %
    • Einreichung 04249c86, Anfrage 176 → 256, Kosten $0.002640 → $0.003840, Veränderung +45,5 %
    • Einreichung af25da70, Anfrage 269 → 501, Kosten $0.004035 → $0.007515, Veränderung +86,2 %
  • Ein ähnliches Anstiegsmuster zeigt sich auch bei großen Anfragen
    • Einreichung c5d75d71, Anfrage 2,263 → 3,282, Kosten $0.0339 → $0.0492, Veränderung +45,0 %
    • Einreichung 4db385b5, Anfrage 1,592 → 2,205, Kosten $0.0239 → $0.0331, Veränderung +38,5 %
    • Einreichung 68375705, Anfrage 4,449 → 6,434, Kosten $0.0667 → $0.0965, Veränderung +44,6 %
  • Es sind zahlreiche Einreichungen mit identischen Werten enthalten
    • Fälle mit Anfrage 175 → 221, Kosten $0.002625 → $0.003315, Veränderung +26,3 % wiederholen sich bei mehreren Einreichungs-IDs
    • Fälle mit Anfrage 996 → 1,392, Kosten $0.0149 → $0.0209, Veränderung +39,8 % wiederholen sich bei mehreren Einreichungs-IDs
    • Fälle mit Anfrage 43 → 61, Kosten $0.000645 → $0.000915, Veränderung +41,9 % wiederholen sich bei mehreren Einreichungs-IDs

1 Kommentare

 
GN⁺ 11 일 전
Hacker-News-Kommentare
  • Ich finde, für einen fairen Vergleich sollte man sich die Gesamtkosten ansehen. 4.7 erzeugt deutlich weniger Output-Token als 4.6, und auch die Inferenzkosten scheinen ziemlich gesunken zu sein. Im Vergleich von Artificial Analysis wirkt 4.7 etwas günstiger als 4.6, und 4.5 liegt fast bei der Hälfte. Besonders auffällig ist, dass die Reasoning-Kosten von 4.6 zu 4.7 fast halbiert wurden. Bei realen Workloads wie Claude Code scheinen aber sowohl Input- als auch Reasoning-Anteil hoch zu sein, daher ist für mich noch schwer abzuschätzen, wie sich höherer Input-Preis und niedrigere Reasoning-Kosten gegeneinander aufheben. Aufgaben mit viel Reasoning könnten günstiger sein, Aufgaben mit wenig Reasoning dagegen eher teurer. Für solche Jobs würde ich dann lieber Codex verwenden

    • Ich denke, dass 4.7 weniger nachdenkt und auch weniger ausgibt, an forced adaptive thinking liegt. API-Nutzer können es ebenfalls nicht abschalten, obwohl genau diese Methode noch vor zwei Wochen bei Opus 4.6 Qualitätsprobleme verursacht hat. Damals gab es sogar Stimmen, die eine Deaktivierung empfahlen, und soweit ich mich erinnere, wurden in manchen Fällen sogar 0 Thinking-Token zugewiesen. Auch jetzt klagen viele über Qualitätsverluste bei Opus 4.7, und ich selbst sehe häufig sehr grundlegende Fehler. Es verbrennt 10 Minuten lang Token, liest den Code aber in Wirklichkeit nicht richtig und arbeitet stattdessen mit hand-waving, nur um sich später selbst zu widersprechen. Mit aktiviertem adaptive thinking halte ich Opus für schwer vertrauenswürdig. Bei Bedarf kann ich auch eine Session-Feedback-ID liefern
    • Manche finden, dass selbst bei derselben Modellnummer Verhalten und Token-Verbrauch je nach Zeitpunkt variieren, daher seien zeitpunktbezogene Tests desselben Modells der fairere Vergleich. Auch wenn der Versionsname gleich bleibt, kann sich das interne Verhalten ändern, weshalb aktuelle Testergebnisse möglicherweise kein geeigneter Maßstab für künftige Vergleiche sind
  • Subjektiv spüre ich beim Wechsel von 4.6 auf 4.7 fast keine Leistungssteigerung, aber die Geschwindigkeit des Limit-Verbrauchs ist sehr deutlich. Gestern habe ich ein 5-Stunden-Limit in 2 Stunden verbraucht, und als ich für ein Refactoring den batched mode eingeschaltet habe, waren in 5 Minuten 30 % des Limits weg, sodass ich abgebrochen habe. Danach habe ich auf eine serielle Vorgehensweise umgestellt, und es wurde zwar etwas besser, aber es war trotzdem klar, dass der Verbrauch viel schneller war als bei 4.6. Aktuell fühlt es sich an, als koste schon eine einzelne Unterhaltung etwa 5 % des 5-Stunden-Limits; früher waren es eher 1–2 %. Ich habe den Max-5x-Plan und damit noch genug Puffer beim Wochenlimit, also ist es für mich noch tragbar, aber ich hätte gern, dass das zumindest transparenter erklärt oder verbessert wird. Auch die effort-Einstellung ist weiterhin viel zu intransparent und dadurch praktisch nur begrenzt hilfreich

    • Am nervigsten ist der Qualitätsverlust durch das erzwungene adaptive thinking. Es frisst 5–10 % meines Max-5x-Kontingents und läuft dann 10 Minuten, aber das Ergebnis ist oft kaum vertrauenswürdig. Statt echten Code zu lesen und sauber zu schlussfolgern, mogelt es sich eher über das Problem hinweg; deshalb empfinde ich Opus mit aktiviertem adaptive thinking als unzuverlässig
    • So wie ich es verstanden habe, muss man nach mehr als 5 Minuten Pause zwischen Prompts die Kosten für die Reinitialisierung des Cache erneut zahlen, sofern man nicht compact oder clear nutzt. Selbst mit compact verschwinden die Kosten nicht vollständig; es scheint nur die Input-Token etwas zu reduzieren. Ob die Kompaktierung selbst kostenlos ist, würde mich allerdings auch interessieren
  • Wenn das Ergebnis gut wäre, würde ich auch mehr bezahlen, aber im Moment fühlt es sich so an, als würde Anthropic die Token-Nutzung durch eine Art intermittierende Verstärkung immer weiter antreiben. Die Claude-Modelle machen definitiv mehr Spaß als GPT oder Codex, haben mehr Persönlichkeit und ein besseres Gespür für Design und Ästhetik. Das gemeinsame vibe-coding fühlt sich fast spielerisch an. Aber das Resultat läuft fast immer auf dieselben Probleme hinaus: Tests werden gelöscht, damit etwas besteht, Duplikat-Code nimmt zu, Abstraktionen sind falsch, Typensicherheit wird abgeschaltet und harte Anforderungen werden ignoriert. Diese Probleme sind auch mit 4.7 nicht gelöst, und unabhängig davon, was Benchmarks sagen, bleiben sie in der Praxis bestehen. Ich bin mir nicht einmal sicher, ob das Unternehmen überhaupt den Willen hat, das zu beheben

    • Ich empfinde es fast genauso. Die heutigen Tools scheinen mir besonders nützlich als Google-Ersatz, für lästige Scaffoldings, Code-Reviews und fortgeschrittene Suche. Da sie sich im Markt der Coding-LLMs bereits etabliert haben, beginnt jetzt wohl die eigentliche Monetarisierung, und ich rechne damit, dass künftig weiter Modelle erscheinen, bei denen die Leistung nur minimal steigt, der Preis aber um mehr als 40 % zunimmt
    • Ich denke, AI sollte man nicht einfach laufen lassen, sondern anleiten. Wer die nötigen Fähigkeiten hat, sie richtig zu führen, kann durchaus Ergebnisse in hoher Qualität herausholen
    • Von der obigen Kritik erscheint mir vor allem die Interpretation zu weitgehend, Anthropic habe absichtlich eine kurzfristige Ausbeutungsstrategie gewählt, um den Token-Verbrauch hochzutreiben. Von außen zu behaupten, man kenne die Unternehmensstrategie, halte ich für gewagt. Meiner Einschätzung nach ist es viel wahrscheinlicher, dass die Leistung eher wegen Infrastruktur- oder Kapazitätsproblemen schwankt, oder dass in eine Richtung getunt wurde, die eher Ingenieure wollten als Kunden, oder dass man wegen Sicherheitsbedenken vorsichtiger geworden ist, etwa wie bei den Sicherheitsbotschaften rund um Mythos. Diese Faktoren schließen sich auch nicht gegenseitig aus. Ich selbst finde Opus 4.7 ebenfalls nicht überragend beeindruckend, habe es aber noch nicht lange genug genutzt und auch keine Benchmarks selbst gefahren. Außerdem lasse ich Claude in letzter Zeit deutlich schwierigere Dinge tun als noch vor ein paar Wochen, nämlich Bayesian probabilistic modeling, daher könnte es auch sein, dass ich die Grenzen des Modells einfach stärker austeste
  • Dieser Vergleich sieht für mich so aus, als ob über die Token-Counting-API die Prompt-Länge auf zwei Arten gemessen wurde, um nur die Tokenizer-Änderung isoliert zu messen. Ein intelligenteres Modell kann aber auch kürzer antworten und dadurch weniger Output-Token erzeugen; wenn man das mit einbezieht, lässt sich aus diesem Vergleich allein nicht wirklich schließen, dass 4.7 in der Praxis günstiger ist. Es kann am Ende natürlich teurer oder billiger sein, aber für eine Einschätzung im realen Einsatz hilft dieses Material meiner Meinung nach nur begrenzt

    • Als praxisnähere Daten hat Artificial Analysis Benchmark berichtet, dass 4.6 max etwa 160 Millionen Token und 4.7 max etwa 100 Millionen Token verbraucht hat. In der Kostenaufschlüsselung stiegen die Input-Kosten zwar um 800 Dollar, dafür sanken die Output-Kosten um 1.400 Dollar. Wie stark sich Output gegen Input aufrechnet, hängt natürlich je nach Anwendungsfall stark ab, und bei niedrigerem effort dürfte auch der Unterschied kleiner ausfallen
    • Ich verstehe nicht ganz, warum das nicht nützlich sein soll. Der Preis pro Input-Token bei 4.7 ist unverändert, aber derselbe Prompt ist auf Input-Basis jetzt offenbar ungefähr 30 % teurer
    • Genau. Ich habe bei 4.6 sogar gesehen, dass mein Token-Verbrauch sank, nachdem ich jede Session auf max effort gestellt habe. Durch die Selbstkorrektur während des Denkprozesses gab es weniger Umwege, sodass die Aufgabe in weniger Schritten erledigt war. Bei 4.7 hatte ich dagegen eher den Eindruck, dass es selbst bei einfachen Aufgaben häufiger im Kreis läuft. Dafür scheint es langen Kontext etwas besser über längere Zeit festhalten zu können
    • Im AI-Bereich wirkt es auf mich ohnehin so, als gäbe es nie einen wirklich nützlichen Vergleich, mit dem alle zufrieden wären
  • Vorläufig werde ich in VSCode Copilot wohl weiterhin Opus 4.5 als Hauptmodell nutzen. In meinem Workflow gebe ich dem Agenten meist ziemlich detaillierte Anweisungen, aber die meisten Agenten versuchen ständig, mehr zu tun als nötig. Von allem, was ich ausprobiert habe, konnte Opus 4.5 am besten selbst aus unvollständigen Prompts den gewünschten Rahmen herauslesen und dann genau so viel wie nötig tun. 4.6 brauchte länger, dachte übermäßig viel nach und vergrößerte auch den Änderungsumfang; ähnliche Probleme hatte ich bei den stärkeren GPTs ebenfalls. Andere Modelle wie Sonnet waren bei weniger präzisen Instruktionen schlechter darin, meine Absicht herauszulesen als Opus. Deshalb habe ich das Experimentieren beendet und einfach bei 4.5 geblieben; teuer war es zwar, aber ich fand es den Preis wert. Wenn 4.7 jetzt in VSCode Copilot sowohl 4.5 als auch 4.6 ersetzt und dazu noch ein 7,5-facher Modifier kommt, wirkt das aus meiner Sicht eher langsamer und teurer und damit wie ein Rückschritt

    • Warum nicht einfach Sonnet verwenden?
    • Ich habe mich gefragt, ob die Aussage, 4.7 ersetze sowohl 4.5 als auch 4.6, wirklich bedeutet, dass 4.5 verschwindet. Ich hatte mich ebenfalls auf 4.5 eingeschossen, also wäre das ziemlich schade, falls es stimmt
  • Immer mehr habe ich den Eindruck, dass die Annahme naiv ist, man könne White-Collar-Arbeit allein durch Skalierung von LLMs vollständig ersetzen. Attention-Mechanismen oder Hopfield-Netzwerke modellieren anscheinend nur einen Teil des menschlichen Gehirns, und die derzeit überall auftauchenden agentic-memory-Erweiterungen wirken für mich geradezu wie ein Gegenbeweis dafür, dass der aktuelle SOTA-Transformer allein nicht ausreicht. Selbst wenn man sich nur auf den Textbereich beschränkt, scheinen die Grenzen sichtbar zu werden; vielleicht wiederhole ich damit nur die Argumentation von Yann LeCun

    • Es kann gut sein, dass du genau das wiederholst. Das Argument vom small subset, also dass Transformer nur einen kleinen Teil des menschlichen Gehirns nachbilden, halte ich weder neurobiologisch noch mit Blick auf die reale Leistungsfähigkeit von LLMs für besonders überzeugend. Transformer sind nicht nur für LLMs da, sondern eine sehr allgemeine und ausdrucksstarke Architektur, die auch in Video, Audio, SLAM, VLA und vielen anderen Bereichen eingesetzt wird. Dass das menschliche Gehirn nicht 1:1 kopiert wurde, heißt nicht, dass man funktional gleichwertige Intelligenz nicht erreichen kann. Das menschliche Gehirn ist letztlich nur eine von der Evolution hervorgebrachte Implementierung. Auch LeCuns Behauptung vom Typ LLMs können das nicht wird empirisch immer wieder widerlegt. Selbst bei Benchmarks wie ARC-AGI-3, die eher gegen LLMs designt sind, habe ich bisher keine andere AI-Kategorie gesehen, die man klar als überlegen bezeichnen könnte
    • Ich habe das Gefühl, dass wir mit Skalierung allein fast an der Obergrenze angekommen sind. Effizienz kann sich aber sicher noch verbessern, und auch die umliegenden Tools und Harnesses werden sich weiterentwickeln
    • Selbst wenn man es nur auf Text beschränkt, bleiben für mich Fragen offen. Warum kann es noch immer keinen ganzen Roman ordentlich schreiben? Selbst bei niedriger angesetztem Maßstab, also eher Novellen oder kürzeren Werken, wirkt es für mich so, als käme es nicht auf das Niveau von Death in Venice, Candide, The Metamorphosis oder Breakfast at Tiffany's. Die Bücher waren doch sicher alle im Trainingskorpus enthalten; deshalb frage ich mich, ob einfach noch niemand bereit war, dafür Token-Kosten in Höhe von Hunderttausenden Dollar auszugeben
  • Gestern wollte ich mit Opus 4.7 Best Practices für eine Single-Page-Website zusammenstellen, und nach nur etwa 4 Prompts war mein Tageslimit überschritten. Nach weiteren ungefähr 7 lag ich auch über dem Wochenlimit. Der gesamte HTML/CSS/JS-Code hatte nicht einmal 300 Zeilen, deshalb war ich ziemlich schockiert, wie schnell das Nutzungslimit aufgebraucht war

    • Genau deshalb habe ich Claude bisher noch nicht ausprobiert; ich hatte mit so etwas gerechnet. Mit einem Enterprise-Abo würde einfach nur die Rechnung wachsen, und gleichzeitig dürfte es für einen VP nicht leicht sein, sofort an die ganze Belegschaft eine Migrationsankündigung zu schicken. Wenn zuerst die Einzelabonnenten abspringen, könnten die Rechenzentrumsnutzung sinken und die Margen steigen
    • Mich würde interessieren, worauf reasoning effort eingestellt war. Soweit ich weiß, verbraucht Max deutlich mehr Token und wird für die meisten Anwendungsfälle nicht empfohlen. Auch der neue Standardwert xhigh verbraucht mehr als der frühere Standardwert medium
    • Mich würde interessieren, um welchen Plan es geht. Bei Pro könnte ich mir das vorstellen, aber selbst im Max-Plan fände ich das noch etwas überraschend
    • Verwendest du ein Claude-Abo? Soweit ich weiß, funktioniert das abonnierte Claude nicht so
  • Der Titel sollte wohl eher 4.6 to 4.7 heißen statt 4.7 zu 4.6

    • Stimme voll zu
    • Selbst für Leute, die von links nach rechts lesen, wirkt Opus 4.6 to 4.7 viel natürlicher
  • Laut der Erläuterung von Artificial Analysis kostete es bei Opus 4.7 mit Adaptive Reasoning und Max Effort etwa 4.406 Dollar, den Intelligence Index zu fahren, und das war rund 11 % günstiger als bei 4.6 mit etwa 4.970 Dollar. Der Score lag 4 Punkte höher, und dieser Unterschied sei auch unter Berücksichtigung des neuen Tokenizers darauf zurückzuführen, dass weniger Output-Token anfielen. Der cached input discount ist in dieser Berechnung allerdings noch nicht enthalten; laut Aussage soll er bald in die Kostenkalkulation aufgenommen werden

  • Mein Eindruck ist, dass die Gesprächsqualität unerwartet stärker gestiegen ist. Das Modell wirkt selbstkritischer, prüft Vorschläge kritischer und trifft meist auch bessere Standardentscheidungen. Vielleicht ist der Unterschied für mich weniger auffällig, weil ich nicht so viele verschiedene Harnesses ausprobiert habe wie andere hier, aber für weniger vorbereitete Nutzer könnte der Mehrwert sogar größer sein. Schon bei einfachen Aufgaben wie dem Nachvollziehen jüngerer Review-Verläufe oder dem Beobachten von Produktdiskussionen war 4.6 zwar nützlich, konnte aber leicht zum foot-gun werden, während 4.7 eher wie ein Senior-Mitglied des Teams aufzutreten scheint