Tokenmaxxing ist tot, lang lebe Tokenmaxxing

(12gramsofcarbon.com)

2 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

In der frühen Phase der KI-Einführung in Unternehmen erzeugte tokenmaxxing, bei dem Token-Nutzung mit Leistungsbewertungen verknüpft wurde, sinnlose Kosten, trug aber auch dazu bei, die Nutzung von KI-Tools in Organisationen zwangsweise zu verbreiten
Bei Meta tauchte, nachdem die individuelle Token-Nutzung mit Bewertungen verknüpft worden war, sogar rein formale Nutzung auf: etwa zwei Agenten den ganzen Tag miteinander sprechen zu lassen, um die Token-Zahlen zu erhöhen
Früher war der lang laufende Einsatz von Agenten wegen compounding error gefährlich, bei dem sich kleine Fehler aufsummieren; zuletzt entsteht jedoch ein Trend zu compounding correctness, bei dem mehr Token zu besseren Ergebnissen führen
Im Security-Bereich kommen Ansätze auf, bei denen Modelle wie Mythos mit großen Token-Budgets auf Schwachstellensuche geschickt werden; dadurch entsteht eine Struktur, in der Verteidiger mehr Rechenaufwand einsetzen müssen als Angreifer
Künftig könnte nicht unbegrenztes Ausgeben für teure Top-Modelle, sondern das häufigere Ausführen günstiger Open Models in Loops zum praktischen Kern von tokenmaxxing werden

Tokenmaxxing begann mit sinnlosem Token-Verbrauch

tokenmaxxing bezeichnet das Phänomen, dass Führungskräfte Mitarbeiter dazu anhalten, viele Token zu verbrauchen, wodurch auch für Aufgaben mit geringem tatsächlichem Wert Token ausgegeben werden
Als prominentes Beispiel wurde Meta dafür kritisiert, Leistungsbewertungen mit der individuellen Token-Nutzung verknüpft zu haben
- Ein Meta-Mitarbeiter berichtete, er habe zwei Agenten den ganzen Tag miteinander sprechen lassen, um seine Token-Zahlen zu erhöhen
Nach außen sah es so aus, als würde das Management nur Kosten verbrennen, ohne Umsatz zu erzielen; es lässt sich aber auch als Maßnahme verstehen, die Nutzung von KI-Tools zwangsweise zu verbreiten
Noch vor wenigen Monaten gab es in Organisationen viele Senior-Mitarbeiter, die die Nutzung von KI-Tools stark ablehnten; selbst wenn man sie überzeugte, wurden die Tools teils auf eine Weise eingesetzt, die leicht zu seltsamen oder schlechten Ergebnissen führte
In dieser Situation wirkte der von oben kommende Druck zur Token-Nutzung als stumpfes Zwangsmittel, um diese Wand zu durchbrechen

Die erste Politik unbegrenzter Nutzung endete am Kostendruck

Die tokenmaxxing-Politik zeigte teilweise Wirkung, und inzwischen codiert fast jedes Team zumindest ein wenig mit KI
Viele Teams haben zwar noch keine eigenen Systeme wie Ramp Inspect oder Stripe Minions gebaut, sind aber zumindest auf dem Niveau angekommen, Cursor grundsätzlich in der Sidebar zu nutzen
Während die Token-Nutzung stark anstieg, begrenzten OpenAI und Anthropic im Zuge ihrer Börsenpläne die in Abos enthaltenen Kontingente und erhöhten API-Preise
Auch Token-Subventionen wurden zurückgefahren, sodass einige Teams ihre Politik unbegrenzter Token-Nutzung wieder zurücknehmen
Unbegrenztes tokenmaxxing im bisherigen Sinn nähert sich einer Phase, in der es Kostenprüfungen kaum noch standhält

Von compounding error zu compounding correctness

Die Erwartung an KI-Tools besteht darin, schwierige und langweilige Aufgaben zu erledigen, ohne dass Menschen sie ständig überwachen müssen
- Große Code-Migrationen
- Jeden Morgen Wettbewerbsrecherchen
- Verarbeitung von Inbound- und Outbound-Flows
Früher sammelten sich kleine Fehler und Halluzinationen des Modells umso stärker im Projekt an, je länger KI ausgeführt wurde, und wurden schwer rückgängig zu machen
Dieses Phänomen wurde compounding error genannt; weil viel menschliche Aufsicht nötig war, gab es auch wenig Grund, Agenten 24 Stunden laufen zu lassen
Jetzt verschiebt sich das Umfeld hin zu compounding correctness, bei dem mehr Token die Wahrscheinlichkeit einer richtigen Antwort erhöhen
Wenn Token-Ausgaben mit der Ergebnisqualität verknüpft sind, entsteht erneut ein Anreiz, viele Token zu verwenden

Der Wettbewerb um Token-Budgets zeigt sich zuerst in der Security

In der Cybersicherheit gibt es bereits Beispiele, in denen Token-Ausgaben direkt mit Leistung zusammenhängen
Cybersecurity is Proof of Work Now nennt Anthropics Mythos als Beispiel und argumentiert, dass Verteidiger zur Härtung von Systemen mehr Token für die Schwachstellensuche ausgeben müssen, als Angreifer für deren Ausnutzung einsetzen
AISI setzte pro Mythos-Versuch ein Budget von 100 Mio. Token an; das entspricht $12,500 pro Versuch und $125,000 für 10 Durchläufe
Modelle mit einem Budget von 100 Mio. Token zeigten keine Anzeichen abnehmender Erträge, und AISI erklärte, dass die Modelle innerhalb der getesteten Token-Budgets mit wachsendem Budget weiter Fortschritte machten
In dieser Struktur werden Rechenarbeit und ein bezahlbares Token-Budget wichtiger als Cleverness

Loops und lang laufende Agenten

Das Interesse an loops, über die Boris Cherny auf der Claude-Code-Bühne sprach, gehört zum selben Trend
Die Grundstruktur von loops besteht darin, dass ein Agent läuft, bis er seinen Turn beendet; danach wird derselbe Prompt erneut gestartet
So lassen sich umfangreiche Spezifikationen automatisch aufteilen und der Agent kann sie im Laufe der Zeit abschnittsweise lösen
Das Konzept ist nicht neu; es existiert seit Juli vergangenen Jahres und wurde zeitweise „Ralph Wiggum loop“ genannt
Früher waren tiefes Verständnis von Prompt-Design und Agentenverhalten nötig, doch dank compounding correctness wird es leichter, mit jeder Wiederholung bessere Näherungsergebnisse zu erwarten

Open Models ermöglichen kosteneffiziente Wiederholungen

Langfristig könnten Open-Model-Plattformen die Gewinner von tokenmaxxing sein
Große Token-Ausgaben für Modelle der führenden Forschungslabore dürften eine CFO-Prüfung nur schwer bestehen
Je besser Open Models werden, desto attraktiver wird es, günstigere Modelle häufiger innerhalb von Loops laufen zu lassen
Wenn Claude beispielsweise pro Iteration eine Verbesserung um den Faktor 1,1 liefert und GLM 5.2 eine Verbesserung um den Faktor 1,05, aber nur etwa ein Fünftel kostet, kann es besser sein, GLM-5.2-Loops fünfmal häufiger auszuführen
Auch im Abschnitt „Other things“ wird GLM 5.2 als nicht State of the Art, aber deutlich günstiger als Frontier-Modelle bewertet
- GLM 5.2: etwa $1.4 pro 1 Mio. Input-Token, etwa $4 pro 1 Mio. Output-Token
- Opus-4.X-Serie: $5 pro 1 Mio. Input-Token, $25 pro 1 Mio. Output-Token
- Haiku 4.5: $1 pro 1 Mio. Input-Token, $5 pro 1 Mio. Output-Token
- GLM 5.2 sei stärker als Haiku und in manchen Benchmarks sogar stärker als GPT 5.5

Der Unterschied zwischen Ausgaben für Entwickler und für Pipelines

Es gibt zwei unterschiedliche Formen von tokenmaxxing
Die erste ist Token-Ausgabe für Entwickler
- Entwickler nutzen Tools wie Claude Code, führen loops aus und verbrauchen viele Token
- Wenn das die Produktivität von Engineers erhöht, kann es eine gute Ausgabe sein
Die zweite ist Token-Ausgabe für Pipelines
- Entwickler schreiben weiterhin Code von Hand und bauen damit einmalige Agenten für bestimmte Aufgaben
- Diese Agenten verhalten sich nichtdeterministisch und fragil und verbrauchen dabei viele Token
- Das ist nur dann eine gute Ausgabe, wenn die Pipeline tatsächlich funktioniert; solche Agenten waren jedoch nicht so genau wie deterministische Pipelines
Wenn man zur Senkung von Halluzinationskosten einen Qualitätsprüfungs-Agenten hinzufügt und dann noch einen weiteren Agenten, um die Fehler dieses Prüfungs-Agenten abzufangen, verdreifachen sich die Token-Kosten
Bei einmaligen Pipeline-Tools zeichnet sich zunehmend ab, dass sie eher über universelle Plattformen mit einer auf die jeweilige Aufgabe zugeschnittenen Hülle abgewickelt werden als über Agenten für einzelne spezifische Aufgaben

Software Factory und extreme Token-Ausgaben

Der natürliche Endpunkt ist eine Software Factory, darüber hinaus sogar eine Dark Factory
In dieser Struktur erstellt, reviewt und debuggt eine Codebase ohne menschliche Aufsicht Code und schreibt Tests
Menschen geben nur noch Spezifikationen ein und erhalten Anwendungen
Die Software Factory von StrongDM wird als Beispiel genannt, das diese Richtung bis zum Extrem treibt
StrongDM argumentierte, Engineers sollten anstreben, Token im Wert von $1000 pro Tag zu verbrauchen; dies wird jedoch als stark übertrieben und werblich eingeschätzt
Die eigene Software Factory gebe rund $600 pro Monat aus, und derzeit Token-Kosten in Höhe eines Senior-Google-Engineers pro Engineer auszugeben, sei überzogen
Dennoch existiert potenziell ein Anreiz, viel Geld für Token auszugeben; er wartet nur noch auf breitere Verbreitung

1 Kommentare

GN⁺ 4 시간 전

Kommentare auf Hacker News

Tokenmaxxing war lediglich eine Methode, um Mitarbeitende zwangsweise dazu zu bringen, AI sinnvoll zu nutzen.
Unternehmen, die Leistung über Token-Ausgaben gemessen haben, können die Intensität jetzt herunterfahren. Die Mitarbeitenden haben AI auch für Dinge ausprobiert, für die sie sie früher nicht genutzt hätten, und dabei gelernt, was möglich ist und was nicht.
Niemand ist so dumm, Token-Ausgaben dauerhaft als Leistungsmaßstab zu verwenden und dafür ein unbegrenztes Budget bereitzustellen. Ich sehe das von Anfang an als Übergangsmaßnahme, um Mitarbeitende in eine neue Umgebung zu bewegen.
Das Management hatte das Gefühl, dass Mitarbeitende AI nicht schnell genug einsetzen, und deshalb gab es 2025 auch viele Mainstream-Artikel darüber, dass CEOs Druck machten und mit Kündigung drohten, wenn man AI nicht nutze. Tokenmaxxing war das andere Extrem, und die Unternehmen werden am Ende einen Gleichgewichtspunkt erreichen.
Man muss das nicht zu tief durchdenken.
Nebenbei: Eine Antwort nannte diesen X-Post als Beispiel dafür, warum das Management solche Maßnahmen ergreifen musste. Unternehmen mit Hunderten/Tausenden/Zehntausenden von Menschen zu verändern ist schwierig, und man muss jeweils eine einfache Botschaft auf einmal senden. https://x.com/danluu/status/1487228574608211969?lang=en
- Die Andeutung, Tokenmaxxing sei ein absichtlicher und wohlüberlegter Ansatz gewesen, ist einfach zu komisch.
  In Wirklichkeit wirkt es eher so, als sei eine überbezahlte Managementschicht, die viel zu weit von der eigentlichen Wertschöpfung entfernt ist, um die Schwächen von LLMs zu verstehen, blind einem Hype hinterhergelaufen.
- Wenn man sich die Argumentation anhörte, die VPs und Top-Führungskräfte während des Tokenmaxxing-Hypes vorbrachten, scheint die Deutung, es sei eine „bewusste Maßnahme gewesen, um Mitarbeitende dazu zu bringen, AI sinnvoll zu nutzen“, viel zu wohlwollend.
  Die meisten Unternehmen konzentrierten sich bestenfalls auf „die anderen machen es, also machen wir es auch“, und schlimmstenfalls war es eher „schauen wir, ob Entwickler Joe so produktiv sein kann wie das ganze Team, und entlassen dann den Rest“.
  Tatsächlich haben viele Unternehmen auch massenhaft Mitarbeitende entlassen, mit der Begründung, ihre Leistung sei unzureichend, weil ihre Token-Ausgaben zu niedrig seien.
- Das ist ungefähr die wohlwollendste Erklärung, die ein Mensch liefern kann.
  Auf diesen konkreten Fall von Dummheit im Management könnte sie vielleicht einfach so zutreffen, aber allgemeiner betrachtet ist es wirklich schönes Schreiben.
  Ich wünschte, ich könnte gegenüber irgendeinem Menschen, geschweige denn einem CEO, einen so fehlgeleiteten Glauben haben.
- Ich erinnere mich an eine Geschichte, die ich früher auf HN gelesen habe. Je größer eine Organisation ist, desto einfacher müssen Botschaft und Werkzeuge sein, wenn man alle erreichen will.
  Jemand, der damals Junior war, erzählte, dass sein Unternehmen für A/B-Tests ein System eingeführt hatte, das „Tokenmaxxing“ ähnelte. Je mehr Tests man durchführte, desto besser war das für die Leistungsbewertung. Damals hielt er es für dumm, aber am Ende hatte es den Effekt, dass alle damit vertraut wurden, was Experimente sind und wie man sie durchführt.
- In einem kleinen Team mit intern beförderten Managern könnte es diese Absicht tatsächlich gegeben haben.
  Bei Managern in Großunternehmen ist es aber viel wahrscheinlicher, dass sie von VPs unter Druck gesetzt wurden, AI zu machen, und die VPs wiederum vom Executive-Team. Das Executive-Team dürfte unter Druck gestanden haben, eine plausibel klingende, magische AI-Strategie vorzulegen, die das Unternehmen bei sinkenden Kosten unbegrenzt wachsen lässt.
  In so einem Umfeld ist es plausibler, Gartner-Charts zu kopieren, ein paar auf Konferenzen aufgeschnappte Buzzwords einzustreuen und darauf zu hoffen, dass irgendwer irgendwo irgendwann daraus etwas macht, das wie Fortschritt aussieht.
Ich höre seit mindestens einem Jahr, dass „es jetzt anders ist, Agenten akkumulieren keine Fehler, sondern Erfolge“, aber danach sieht es immer noch nicht aus.
Ich hatte das zweifelhafte Glück, von solchen Leuten eine einwöchige AI-Schulung für 50.000 Dollar pro Person zu bekommen, und eine der wenigen konkreten Empfehlungen, die wenigstens hilfreich war, lautete, den Kontext häufig und kontinuierlich zu leeren, damit die Arbeit nicht aus dem Ruder läuft.
Bei der Suche nach Sicherheitslücken spielt das aber möglicherweise keine Rolle. Für diesen Anwendungsfall ist Tokenmaxxing definitiv effektiv. Die Branche führt gerade eine sehr teure und komplexe Form von kontinuierlichem Fuzzing ein.
- Selbst die neuesten Frontier-Modelle profitieren enorm von sorgfältigem Context-Pruning, Pflege und Umschreiben, um Fehler zu entfernen; überraschend ist, dass es kein Tool gibt, das genau das in den Mittelpunkt stellt.
  Zed, ein Tool, das früher eine solche Funktion hatte, und später auch Text Threads, haben diese Funktion inzwischen entfernt.
- Eine einwöchige AI-Schulung für 50.000 Dollar pro Person klingt nach einem kaum zu glaubenden betrügerischen Geschäft.
  Ich frage mich wirklich, wer das gewesen sein soll, dass jemand diese Investition für lohnend halten konnte.
Die Formulierung „Stellen Sie sich vor, ein ernstzunehmender Unternehmensführer, etwa jemand wie Mark Zuckerberg, kündigt an, Meta werde Geld verbrennen“ ähnelt zum Beispiel der Ankündigung der Metaverse-Wende, bei der sogar der Firmenname geändert wurde, um Ernsthaftigkeit zu demonstrieren.
Die Stelle „Mehr Tokens zu verwenden führt im Allgemeinen zu besseren Ergebnissen. Wir nennen das ‚Compound Accuracy‘“ ist seltsam.
Sind wir wirklich in dieser Phase angekommen? Stimmt es allgemein, dass mehr ausgegebene Tokens normalerweise bessere Ergebnisse liefern? Diese Ansicht wirkt so merkwürdig, dass ich mich frage, ob der Autor finanziell von Tokenmaxxing profitiert.
- Vielleicht hält er eine ordentliche Menge NVDA-Aktien.
Das ist die Hölle. Wenn die Hölle ein Ort ist, an dem man für immer in einer unbequemen Achterbahn mit miserabler Wartung feststeckt, dann fühlt es sich genau so an.
Ein passenderer Titel für den Inhalt des Artikels wäre wohl „Die Berichte über den Tod von Tokenmaxxing sind stark übertrieben“ gewesen.
Persönlich hasse ich die Verwendung dieser unsinnigen Titel-Floskel „x ist tot, lang lebe x“.
- „Lang lebe x“ ist ein faules Meme, mit dem man Aufmerksamkeit bekommt, ohne sich wirklich einen passenden Titel überlegen zu müssen.
- Dieser Titel ist besser! Ich habe ihn als Untertitel hinzugefügt.
Was ist hier mit Loop gemeint? Dass man denselben Prompt wiederholt, bis das gewünschte Ergebnis herauskommt? Sind die wiederholten Ergebnisse nicht viel zu ähnlich?
- Offenbar gibt es jetzt neben Prompt-„Engineering“ auch Loop-„Engineering“.
  https://github.com/topics/loop-engineering
- Nicht unbedingt, bis das gewünschte Ergebnis herauskommt, sondern eher, bis das LLM selbst nach den vorgegebenen Kriterien entscheidet, dass es „fertig“ ist.
  Dieses Kriterium ist oft nur eine aktualisierte To-do-Liste. Eines dieser extrem einfachen „Harnesses“ wurde sogar Ralph Wiggum Loop[1] genannt, um auf das dadurch entstehende, hirnlos wirkende, aber hartnäckige Tokenmaxxing anzuspielen.
  [1] https://awesomeclaude.ai/ralph-wiggum
So etwas scheint sich in den ersten Jahren der Einführung großer Technologien meistens zu wiederholen.
Beim Big-Data-Boom Anfang der 2010er kauften Führungskräfte auch erst einmal Spark-Cluster und Data Lakes ein, ohne klare analytische Use Cases oder Governance.
„Man hört fast nie, dass ein Unternehmensführer sagt, er wolle Geld verbrennen, um sich gut zu fühlen“ — wirklich?
Vor etwa vier Jahren ließ unser CEO mehrfach Berater einfliegen, um Teambuilding-Übungen zu machen. Wir konnten uns zwar nicht einmal den dreijährigen Serveraustausch leisten, aber die Beraterkosten waren kein Problem.
Kürzlich wurde auch ein Branding-Berater engagiert, und wir gaben Tausende Dollar an AWS-Kosten aus, um alle Fotos fürs Rebranding zu bearbeiten. Wir operieren in einem Captive Market. Wer in unserem Markt verkaufen will, muss unseren Service abonnieren, und wer außerhalb dieses Marktes ist, kann gar nicht abonnieren. Das Branding steigert den Umsatz am Ende um genau 0.
In einem früheren Unternehmen, mit dem ich gearbeitet habe, war eine der ersten Maßnahmen des neuen CTO eine Regel zur Umbenennung von Servern. Es wurden Namen von Städten aus aller Welt verwendet, die den überwiegend US-amerikanischen Mitarbeitenden fremd waren: Datenbankserver nach Schweizer Städten, Webserver nach dänischen, Storage nach finnischen. Aus Namen wie für Vieh wurden Kosenamen wie für Haustiere, und der CTO hielt etwa sechs Monate durch.
Meiner Erfahrung nach ist die Unternehmensführung nicht so sparsam, wie dieser Artikel glaubt.
- Es ist auch erstaunlich, wie naiv viele Menschen gegenüber Unternehmen sind. Es wirkt, als hätten sie die Maxime „Kapitalismus ist effizient“ vollständig geschluckt.
  Es ist schwer vorstellbar, in einem Unternehmensumfeld zu arbeiten und nie ein offensichtliches Beispiel für solche Verschwendung gesehen zu haben. Überbezahlte Berater und Budgets, die unbedingt ausgegeben werden müssen, sind klassische Beispiele.
  Der Film Office Space kam vor 27 Jahren heraus und hat eine Handlung, die überbezahlte „Effizienzberater“ verspottet, deren Arbeit im Grunde nur darin besteht, dem Management zu sagen, es solle Leute entlassen.
- Fairerweise sagen Führungskräfte das normalerweise nicht so direkt. Sie produzieren nur irgendein Wortgeklingel, das bedeutet: „Ich verbrenne Geld, weil es sich gut anfühlt.“
  Genauer gesagt heißt es eher: „Weil das meiner Karriere hilft.“

Tokenmaxxing ist tot, lang lebe Tokenmaxxing

Tokenmaxxing begann mit sinnlosem Token-Verbrauch

Die erste Politik unbegrenzter Nutzung endete am Kostendruck

Von compounding error zu compounding correctness

Der Wettbewerb um Token-Budgets zeigt sich zuerst in der Security

Loops und lang laufende Agenten

Open Models ermöglichen kosteneffiziente Wiederholungen

Der Unterschied zwischen Ausgaben für Entwickler und für Pipelines

Software Factory und extreme Token-Ausgaben

Verwandte Beiträge

1 Kommentare

Kommentare auf Hacker News