Tokenmaxxing ist tot, lang lebe Tokenmaxxing
(12gramsofcarbon.com)- In der frühen Phase der KI-Einführung in Unternehmen erzeugte tokenmaxxing, bei dem Token-Nutzung mit Leistungsbewertungen verknüpft wurde, sinnlose Kosten, trug aber auch dazu bei, die Nutzung von KI-Tools in Organisationen zwangsweise zu verbreiten
- Bei Meta tauchte, nachdem die individuelle Token-Nutzung mit Bewertungen verknüpft worden war, sogar rein formale Nutzung auf: etwa zwei Agenten den ganzen Tag miteinander sprechen zu lassen, um die Token-Zahlen zu erhöhen
- Früher war der lang laufende Einsatz von Agenten wegen compounding error gefährlich, bei dem sich kleine Fehler aufsummieren; zuletzt entsteht jedoch ein Trend zu compounding correctness, bei dem mehr Token zu besseren Ergebnissen führen
- Im Security-Bereich kommen Ansätze auf, bei denen Modelle wie Mythos mit großen Token-Budgets auf Schwachstellensuche geschickt werden; dadurch entsteht eine Struktur, in der Verteidiger mehr Rechenaufwand einsetzen müssen als Angreifer
- Künftig könnte nicht unbegrenztes Ausgeben für teure Top-Modelle, sondern das häufigere Ausführen günstiger Open Models in Loops zum praktischen Kern von tokenmaxxing werden
Tokenmaxxing begann mit sinnlosem Token-Verbrauch
- tokenmaxxing bezeichnet das Phänomen, dass Führungskräfte Mitarbeiter dazu anhalten, viele Token zu verbrauchen, wodurch auch für Aufgaben mit geringem tatsächlichem Wert Token ausgegeben werden
- Als prominentes Beispiel wurde Meta dafür kritisiert, Leistungsbewertungen mit der individuellen Token-Nutzung verknüpft zu haben
- Ein Meta-Mitarbeiter berichtete, er habe zwei Agenten den ganzen Tag miteinander sprechen lassen, um seine Token-Zahlen zu erhöhen
- Nach außen sah es so aus, als würde das Management nur Kosten verbrennen, ohne Umsatz zu erzielen; es lässt sich aber auch als Maßnahme verstehen, die Nutzung von KI-Tools zwangsweise zu verbreiten
- Noch vor wenigen Monaten gab es in Organisationen viele Senior-Mitarbeiter, die die Nutzung von KI-Tools stark ablehnten; selbst wenn man sie überzeugte, wurden die Tools teils auf eine Weise eingesetzt, die leicht zu seltsamen oder schlechten Ergebnissen führte
- In dieser Situation wirkte der von oben kommende Druck zur Token-Nutzung als stumpfes Zwangsmittel, um diese Wand zu durchbrechen
Die erste Politik unbegrenzter Nutzung endete am Kostendruck
- Die tokenmaxxing-Politik zeigte teilweise Wirkung, und inzwischen codiert fast jedes Team zumindest ein wenig mit KI
- Viele Teams haben zwar noch keine eigenen Systeme wie Ramp Inspect oder Stripe Minions gebaut, sind aber zumindest auf dem Niveau angekommen, Cursor grundsätzlich in der Sidebar zu nutzen
- Während die Token-Nutzung stark anstieg, begrenzten OpenAI und Anthropic im Zuge ihrer Börsenpläne die in Abos enthaltenen Kontingente und erhöhten API-Preise
- Auch Token-Subventionen wurden zurückgefahren, sodass einige Teams ihre Politik unbegrenzter Token-Nutzung wieder zurücknehmen
- Unbegrenztes tokenmaxxing im bisherigen Sinn nähert sich einer Phase, in der es Kostenprüfungen kaum noch standhält
Von compounding error zu compounding correctness
- Die Erwartung an KI-Tools besteht darin, schwierige und langweilige Aufgaben zu erledigen, ohne dass Menschen sie ständig überwachen müssen
- Große Code-Migrationen
- Jeden Morgen Wettbewerbsrecherchen
- Verarbeitung von Inbound- und Outbound-Flows
- Früher sammelten sich kleine Fehler und Halluzinationen des Modells umso stärker im Projekt an, je länger KI ausgeführt wurde, und wurden schwer rückgängig zu machen
- Dieses Phänomen wurde compounding error genannt; weil viel menschliche Aufsicht nötig war, gab es auch wenig Grund, Agenten 24 Stunden laufen zu lassen
- Jetzt verschiebt sich das Umfeld hin zu compounding correctness, bei dem mehr Token die Wahrscheinlichkeit einer richtigen Antwort erhöhen
- Wenn Token-Ausgaben mit der Ergebnisqualität verknüpft sind, entsteht erneut ein Anreiz, viele Token zu verwenden
Der Wettbewerb um Token-Budgets zeigt sich zuerst in der Security
- In der Cybersicherheit gibt es bereits Beispiele, in denen Token-Ausgaben direkt mit Leistung zusammenhängen
- Cybersecurity is Proof of Work Now nennt Anthropics Mythos als Beispiel und argumentiert, dass Verteidiger zur Härtung von Systemen mehr Token für die Schwachstellensuche ausgeben müssen, als Angreifer für deren Ausnutzung einsetzen
- AISI setzte pro Mythos-Versuch ein Budget von 100 Mio. Token an; das entspricht $12,500 pro Versuch und $125,000 für 10 Durchläufe
- Modelle mit einem Budget von 100 Mio. Token zeigten keine Anzeichen abnehmender Erträge, und AISI erklärte, dass die Modelle innerhalb der getesteten Token-Budgets mit wachsendem Budget weiter Fortschritte machten
- In dieser Struktur werden Rechenarbeit und ein bezahlbares Token-Budget wichtiger als Cleverness
Loops und lang laufende Agenten
- Das Interesse an loops, über die Boris Cherny auf der Claude-Code-Bühne sprach, gehört zum selben Trend
- Die Grundstruktur von loops besteht darin, dass ein Agent läuft, bis er seinen Turn beendet; danach wird derselbe Prompt erneut gestartet
- So lassen sich umfangreiche Spezifikationen automatisch aufteilen und der Agent kann sie im Laufe der Zeit abschnittsweise lösen
- Das Konzept ist nicht neu; es existiert seit Juli vergangenen Jahres und wurde zeitweise „Ralph Wiggum loop“ genannt
- Früher waren tiefes Verständnis von Prompt-Design und Agentenverhalten nötig, doch dank compounding correctness wird es leichter, mit jeder Wiederholung bessere Näherungsergebnisse zu erwarten
Open Models ermöglichen kosteneffiziente Wiederholungen
- Langfristig könnten Open-Model-Plattformen die Gewinner von tokenmaxxing sein
- Große Token-Ausgaben für Modelle der führenden Forschungslabore dürften eine CFO-Prüfung nur schwer bestehen
- Je besser Open Models werden, desto attraktiver wird es, günstigere Modelle häufiger innerhalb von Loops laufen zu lassen
- Wenn Claude beispielsweise pro Iteration eine Verbesserung um den Faktor 1,1 liefert und GLM 5.2 eine Verbesserung um den Faktor 1,05, aber nur etwa ein Fünftel kostet, kann es besser sein, GLM-5.2-Loops fünfmal häufiger auszuführen
- Auch im Abschnitt „Other things“ wird GLM 5.2 als nicht State of the Art, aber deutlich günstiger als Frontier-Modelle bewertet
- GLM 5.2: etwa $1.4 pro 1 Mio. Input-Token, etwa $4 pro 1 Mio. Output-Token
- Opus-4.X-Serie: $5 pro 1 Mio. Input-Token, $25 pro 1 Mio. Output-Token
- Haiku 4.5: $1 pro 1 Mio. Input-Token, $5 pro 1 Mio. Output-Token
- GLM 5.2 sei stärker als Haiku und in manchen Benchmarks sogar stärker als GPT 5.5
Der Unterschied zwischen Ausgaben für Entwickler und für Pipelines
- Es gibt zwei unterschiedliche Formen von tokenmaxxing
- Die erste ist Token-Ausgabe für Entwickler
- Entwickler nutzen Tools wie Claude Code, führen loops aus und verbrauchen viele Token
- Wenn das die Produktivität von Engineers erhöht, kann es eine gute Ausgabe sein
- Die zweite ist Token-Ausgabe für Pipelines
- Entwickler schreiben weiterhin Code von Hand und bauen damit einmalige Agenten für bestimmte Aufgaben
- Diese Agenten verhalten sich nichtdeterministisch und fragil und verbrauchen dabei viele Token
- Das ist nur dann eine gute Ausgabe, wenn die Pipeline tatsächlich funktioniert; solche Agenten waren jedoch nicht so genau wie deterministische Pipelines
- Wenn man zur Senkung von Halluzinationskosten einen Qualitätsprüfungs-Agenten hinzufügt und dann noch einen weiteren Agenten, um die Fehler dieses Prüfungs-Agenten abzufangen, verdreifachen sich die Token-Kosten
- Bei einmaligen Pipeline-Tools zeichnet sich zunehmend ab, dass sie eher über universelle Plattformen mit einer auf die jeweilige Aufgabe zugeschnittenen Hülle abgewickelt werden als über Agenten für einzelne spezifische Aufgaben
Software Factory und extreme Token-Ausgaben
- Der natürliche Endpunkt ist eine Software Factory, darüber hinaus sogar eine Dark Factory
- In dieser Struktur erstellt, reviewt und debuggt eine Codebase ohne menschliche Aufsicht Code und schreibt Tests
- Menschen geben nur noch Spezifikationen ein und erhalten Anwendungen
- Die Software Factory von StrongDM wird als Beispiel genannt, das diese Richtung bis zum Extrem treibt
- StrongDM argumentierte, Engineers sollten anstreben, Token im Wert von $1000 pro Tag zu verbrauchen; dies wird jedoch als stark übertrieben und werblich eingeschätzt
- Die eigene Software Factory gebe rund $600 pro Monat aus, und derzeit Token-Kosten in Höhe eines Senior-Google-Engineers pro Engineer auszugeben, sei überzogen
- Dennoch existiert potenziell ein Anreiz, viel Geld für Token auszugeben; er wartet nur noch auf breitere Verbreitung
1 Kommentare
Kommentare auf Hacker News
Tokenmaxxing war lediglich eine Methode, um Mitarbeitende zwangsweise dazu zu bringen, AI sinnvoll zu nutzen.
Unternehmen, die Leistung über Token-Ausgaben gemessen haben, können die Intensität jetzt herunterfahren. Die Mitarbeitenden haben AI auch für Dinge ausprobiert, für die sie sie früher nicht genutzt hätten, und dabei gelernt, was möglich ist und was nicht.
Niemand ist so dumm, Token-Ausgaben dauerhaft als Leistungsmaßstab zu verwenden und dafür ein unbegrenztes Budget bereitzustellen. Ich sehe das von Anfang an als Übergangsmaßnahme, um Mitarbeitende in eine neue Umgebung zu bewegen.
Das Management hatte das Gefühl, dass Mitarbeitende AI nicht schnell genug einsetzen, und deshalb gab es 2025 auch viele Mainstream-Artikel darüber, dass CEOs Druck machten und mit Kündigung drohten, wenn man AI nicht nutze. Tokenmaxxing war das andere Extrem, und die Unternehmen werden am Ende einen Gleichgewichtspunkt erreichen.
Man muss das nicht zu tief durchdenken.
Nebenbei: Eine Antwort nannte diesen X-Post als Beispiel dafür, warum das Management solche Maßnahmen ergreifen musste. Unternehmen mit Hunderten/Tausenden/Zehntausenden von Menschen zu verändern ist schwierig, und man muss jeweils eine einfache Botschaft auf einmal senden. https://x.com/danluu/status/1487228574608211969?lang=en
In Wirklichkeit wirkt es eher so, als sei eine überbezahlte Managementschicht, die viel zu weit von der eigentlichen Wertschöpfung entfernt ist, um die Schwächen von LLMs zu verstehen, blind einem Hype hinterhergelaufen.
Die meisten Unternehmen konzentrierten sich bestenfalls auf „die anderen machen es, also machen wir es auch“, und schlimmstenfalls war es eher „schauen wir, ob Entwickler Joe so produktiv sein kann wie das ganze Team, und entlassen dann den Rest“.
Tatsächlich haben viele Unternehmen auch massenhaft Mitarbeitende entlassen, mit der Begründung, ihre Leistung sei unzureichend, weil ihre Token-Ausgaben zu niedrig seien.
Auf diesen konkreten Fall von Dummheit im Management könnte sie vielleicht einfach so zutreffen, aber allgemeiner betrachtet ist es wirklich schönes Schreiben.
Ich wünschte, ich könnte gegenüber irgendeinem Menschen, geschweige denn einem CEO, einen so fehlgeleiteten Glauben haben.
Jemand, der damals Junior war, erzählte, dass sein Unternehmen für A/B-Tests ein System eingeführt hatte, das „Tokenmaxxing“ ähnelte. Je mehr Tests man durchführte, desto besser war das für die Leistungsbewertung. Damals hielt er es für dumm, aber am Ende hatte es den Effekt, dass alle damit vertraut wurden, was Experimente sind und wie man sie durchführt.
Bei Managern in Großunternehmen ist es aber viel wahrscheinlicher, dass sie von VPs unter Druck gesetzt wurden, AI zu machen, und die VPs wiederum vom Executive-Team. Das Executive-Team dürfte unter Druck gestanden haben, eine plausibel klingende, magische AI-Strategie vorzulegen, die das Unternehmen bei sinkenden Kosten unbegrenzt wachsen lässt.
In so einem Umfeld ist es plausibler, Gartner-Charts zu kopieren, ein paar auf Konferenzen aufgeschnappte Buzzwords einzustreuen und darauf zu hoffen, dass irgendwer irgendwo irgendwann daraus etwas macht, das wie Fortschritt aussieht.
Ich höre seit mindestens einem Jahr, dass „es jetzt anders ist, Agenten akkumulieren keine Fehler, sondern Erfolge“, aber danach sieht es immer noch nicht aus.
Ich hatte das zweifelhafte Glück, von solchen Leuten eine einwöchige AI-Schulung für 50.000 Dollar pro Person zu bekommen, und eine der wenigen konkreten Empfehlungen, die wenigstens hilfreich war, lautete, den Kontext häufig und kontinuierlich zu leeren, damit die Arbeit nicht aus dem Ruder läuft.
Bei der Suche nach Sicherheitslücken spielt das aber möglicherweise keine Rolle. Für diesen Anwendungsfall ist Tokenmaxxing definitiv effektiv. Die Branche führt gerade eine sehr teure und komplexe Form von kontinuierlichem Fuzzing ein.
Zed, ein Tool, das früher eine solche Funktion hatte, und später auch Text Threads, haben diese Funktion inzwischen entfernt.
Ich frage mich wirklich, wer das gewesen sein soll, dass jemand diese Investition für lohnend halten konnte.
Die Formulierung „Stellen Sie sich vor, ein ernstzunehmender Unternehmensführer, etwa jemand wie Mark Zuckerberg, kündigt an, Meta werde Geld verbrennen“ ähnelt zum Beispiel der Ankündigung der Metaverse-Wende, bei der sogar der Firmenname geändert wurde, um Ernsthaftigkeit zu demonstrieren.
Die Stelle „Mehr Tokens zu verwenden führt im Allgemeinen zu besseren Ergebnissen. Wir nennen das ‚Compound Accuracy‘“ ist seltsam.
Sind wir wirklich in dieser Phase angekommen? Stimmt es allgemein, dass mehr ausgegebene Tokens normalerweise bessere Ergebnisse liefern? Diese Ansicht wirkt so merkwürdig, dass ich mich frage, ob der Autor finanziell von Tokenmaxxing profitiert.
Das ist die Hölle. Wenn die Hölle ein Ort ist, an dem man für immer in einer unbequemen Achterbahn mit miserabler Wartung feststeckt, dann fühlt es sich genau so an.
Ein passenderer Titel für den Inhalt des Artikels wäre wohl „Die Berichte über den Tod von Tokenmaxxing sind stark übertrieben“ gewesen.
Persönlich hasse ich die Verwendung dieser unsinnigen Titel-Floskel „x ist tot, lang lebe x“.
Was ist hier mit Loop gemeint? Dass man denselben Prompt wiederholt, bis das gewünschte Ergebnis herauskommt? Sind die wiederholten Ergebnisse nicht viel zu ähnlich?
https://github.com/topics/loop-engineering
Dieses Kriterium ist oft nur eine aktualisierte To-do-Liste. Eines dieser extrem einfachen „Harnesses“ wurde sogar Ralph Wiggum Loop[1] genannt, um auf das dadurch entstehende, hirnlos wirkende, aber hartnäckige Tokenmaxxing anzuspielen.
[1] https://awesomeclaude.ai/ralph-wiggum
So etwas scheint sich in den ersten Jahren der Einführung großer Technologien meistens zu wiederholen.
Beim Big-Data-Boom Anfang der 2010er kauften Führungskräfte auch erst einmal Spark-Cluster und Data Lakes ein, ohne klare analytische Use Cases oder Governance.
„Man hört fast nie, dass ein Unternehmensführer sagt, er wolle Geld verbrennen, um sich gut zu fühlen“ — wirklich?
Vor etwa vier Jahren ließ unser CEO mehrfach Berater einfliegen, um Teambuilding-Übungen zu machen. Wir konnten uns zwar nicht einmal den dreijährigen Serveraustausch leisten, aber die Beraterkosten waren kein Problem.
Kürzlich wurde auch ein Branding-Berater engagiert, und wir gaben Tausende Dollar an AWS-Kosten aus, um alle Fotos fürs Rebranding zu bearbeiten. Wir operieren in einem Captive Market. Wer in unserem Markt verkaufen will, muss unseren Service abonnieren, und wer außerhalb dieses Marktes ist, kann gar nicht abonnieren. Das Branding steigert den Umsatz am Ende um genau 0.
In einem früheren Unternehmen, mit dem ich gearbeitet habe, war eine der ersten Maßnahmen des neuen CTO eine Regel zur Umbenennung von Servern. Es wurden Namen von Städten aus aller Welt verwendet, die den überwiegend US-amerikanischen Mitarbeitenden fremd waren: Datenbankserver nach Schweizer Städten, Webserver nach dänischen, Storage nach finnischen. Aus Namen wie für Vieh wurden Kosenamen wie für Haustiere, und der CTO hielt etwa sechs Monate durch.
Meiner Erfahrung nach ist die Unternehmensführung nicht so sparsam, wie dieser Artikel glaubt.
Es ist schwer vorstellbar, in einem Unternehmensumfeld zu arbeiten und nie ein offensichtliches Beispiel für solche Verschwendung gesehen zu haben. Überbezahlte Berater und Budgets, die unbedingt ausgegeben werden müssen, sind klassische Beispiele.
Der Film Office Space kam vor 27 Jahren heraus und hat eine Handlung, die überbezahlte „Effizienzberater“ verspottet, deren Arbeit im Grunde nur darin besteht, dem Management zu sagen, es solle Leute entlassen.
Genauer gesagt heißt es eher: „Weil das meiner Karriere hilft.“