Ubers monatliches AI-Limit von 1.500 Dollar ist ein nützliches Signal für die Preisgestaltung von AI-Tools
(simonwillison.net)- Uber begrenzt die monatlichen Token-Ausgaben pro AI-Coding-Tool für alle Mitarbeitenden auf 1.500 US-Dollar, um auf die steigenden Kosten agentischer Coding-Tools zu reagieren
- Das Limit gilt nur für agentische Coding-Software wie Cursor oder Claude Code; die Ausgaben für ein Tool beeinflussen nicht das Budget eines anderen Tools
- Uber stellte 2025 das AI-Budget für 2026 auf, verbrauchte dieses 2026 jedoch innerhalb von vier Monaten, als tokenintensive Coding-Agenten schneller als erwartet an Popularität gewannen
- Nimmt man an, dass zwei Tools aktiv genutzt werden, liegt die jährliche Obergrenze pro Engineer bei 36.000 US-Dollar, was etwa 11 % der von Levels.fyi angegebenen mittleren Vergütung von 330.000 US-Dollar für Uber-Software-Engineers in den USA entspricht
- Die Preise für AI-Tools haben sich stark zwischen subventionierten Tarifen für Privatabonnenten und den tatsächlichen API-Kosten für Großunternehmen auseinanderentwickelt, und Ubers Limit zeigt, welche Kosten Unternehmen tragen können
Ubers Ausgabenlimit für AI-Coding-Tools
- Uber begrenzt die monatlichen Token-Ausgaben pro AI-Coding-Tool für alle Mitarbeitenden auf 1.500 US-Dollar
- Das Limit wurde in den vergangenen Monaten eingeführt und gilt nur für agentische Coding-Software wie Cursor oder Anthropics Claude Code
- Da das Limit pro Tool gilt, verringern die Ausgaben für ein Tool nicht das Budget eines anderen Tools
- Das monatliche Limit von 1.500 US-Dollar ist als Reaktion auf übermäßige Ausgaben plausibel und wird als sinnvollerer Ansatz bewertet als Leaderboards für tokenmaxxing, die Mitarbeitende dazu anregen würden, beim AI-Verbrauch zu konkurrieren
Preissignal und Kostenrechnung
- Dass Uber sein AI-Budget für 2026 innerhalb von vier Monaten aufgebraucht hat, hängt damit zusammen, dass sich bei der Budgetplanung 2025 die Popularität tokenintensiver Coding-Agenten nur schwer vorhersagen ließ
- Unter der Annahme, dass ein Engineer zwei aktiv genutzte Tools hat, ergibt sich eine Obergrenze von 3.000 US-Dollar pro Monat bzw. 36.000 US-Dollar pro Jahr
- Das mittlere jährliche Vergütungspaket für Uber-Software-Engineers in den USA laut Levels.fyi beträgt 330.000 US-Dollar; das Jahreslimit von 36.000 US-Dollar entspricht etwa 11 % davon
- Selbst wenn man als Privatnutzer bei Anthropic und OpenAI jeweils Token im Wert von 1.000 US-Dollar pro Monat verbraucht, liegen die aktuellen Kosten dank subventionierter Tarife für Privatabonnenten derzeit bei rund 100 US-Dollar pro Anbieter
- Solche subventionierten Tarife für Privatnutzer werden Großunternehmen wie Uber nicht mehr angeboten; bei den aktuellen Nutzungsmustern blieben selbst innerhalb von Ubers Limit noch 500 US-Dollar pro Monat und Tool übrig
1 Kommentare
Hacker-News-Kommentare
Ich frage mich, ob AI-Anbieter die aktuellen Preise pro Token beibehalten werden oder sie wegen der Konkurrenz aus China am Ende doch senken müssen
Einzelpersonen mit begrenztem Budget wechseln bereits zu chinesischen Open-Weight-Modellen wie DeepSeek
Es ist auch fraglich, ob China die Anbieter tatsächlich subventioniert oder ob die Inferenzkosten in Wirklichkeit viel niedriger sind und Anthropic/OpenAI für einen künftigen IPO einfach so viel wie möglich verlangen
Führende Labs werden zumindest bei günstigen und mittelpreisigen Modellen ihre hohen Preise pro Token wohl senken müssen. Chinesische Modelle wie Qwen, DeepSeek, Kimi und GLM sind nämlich „nah genug dran“, um mit der richtigen Laufzeitumgebung kosteneffiziente Alternativen zu sein
Allerdings gibt es auch Modelle, die mehr Arbeit benötigen, um dasselbe Problem zu lösen, daher muss die Lücke möglicherweise noch nicht vollständig geschlossen werden
Trotzdem werden die Preise wohl auf die eine oder andere Weise sinken, und gleichzeitig sind Abos für günstige chinesische Modelle wahrscheinlich ebenfalls subventioniert und dürften mit der Zeit weniger großzügig werden
Die Preise pro Token sinken mit der Zeit wegen Wettbewerbsdrucks oder weil Kunden auf ältere Billigmodelle ausweichen, während Rechenzentren über Schulden finanziert werden, unter der Annahme, dass die Umsätze im Zeitverlauf steigen
In seinen Worten: „[AI-Unternehmen] bezahlen ihre Fixkosten mit einem Gut, dessen Wert sinkt“
Auf der einen Seite sinken die Token-Umsätze, auf der anderen steigen die Trainingskosten für das nächste Frontier-Modell, während gleichzeitig 10-jährige Schulden bedient werden müssen
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
„Was das Problem noch verschärft, ist, dass chinesische Labs Modelle mit Dual-Use-Potenzial häufig als Open Weight veröffentlichen. Sobald ein Modell Open Weight ist, können bestehende Schutzmechanismen entfernt werden, und es kann von staatlichen und nichtstaatlichen Akteuren mit böswilligen Absichten genutzt werden, einschließlich für Cyber- und CBRN-Missbrauch, den diese Schutzmaßnahmen eigentlich verhindern sollten“
https://www.anthropic.com/research/2028-ai-leadership
Ich frage mich, wann große Unternehmen erkennen werden, dass auch Flash-Modelle unter den folgenden Bedingungen gut genug funktionieren
Auch große Modelle sind bei großen Änderungen weiterhin schlecht, entwerfen fragwürdige Architekturen, und bei ernsthaften Projekten muss man den Code sowieso prüfen
Bei jedem Modell wird eine Codebasis schnell chaotisch, wenn man nicht ausreichend aufpasst
Wenn man mit Vorgaben iterativ arbeitet, sind Flash-Modelle 10x billiger und viel schneller, daher sehe ich wenig Grund, dafür große Modelle zu verwenden. Große Modelle kann man für Sicherheits- und Bug-Audits nutzen, und bei Änderungen unter 300 Zeilen verhält sich ein Flash-Modell fast genauso, wenn man vorgibt, wie der Code aussehen soll
Wenn diese Zahl deutlich steigt, werden Unternehmen sich, wie vorgeschlagen, vermutlich stärker mit Flash-Modellen beschäftigen
Aber dabei übersieht man den anderen, wichtigeren Teil: die Laufzeitumgebung (Harness). Man betreibt eine autonome Pipeline mit einem selbstgebauten Orchestrator für Planung/Design/Code/Build/Test und setzt in mehreren Stufen Agenten ein
Für jede Stufe passt ein anderes Modell besser, und die Ergebnisse zwischen den Stufen werden mit LLMs bewertet. Nicht jede Aufgabe braucht Opus 4.8
Die Laufzeitumgebung bietet das Gerüst dafür, was in das Modell hinein- und wieder herausgeholt werden muss, und legt auch fest, welches Modell welche Aufgabe übernimmt
Nicht das Modell, sondern die Pipeline erzeugt Qualität innerhalb eines gegebenen Token-Budgets
Oder vielleicht könnte ein großes Modell den Unterschied zwischen einfachen und schwierigen Fragen lernen und entsprechend abrechnen. Wenn man Komplexität messen kann, könnte man vielleicht sogar Kostenvoranschläge erstellen
Kleine Modelle reichen für kleine Programmieraufgaben, aber ich verstehe nicht ganz, warum auch große Modelle die Arbeit nicht in den meisten Fällen weiter zerlegen könnten
Das wurde zu einem Engineering-Problem und wird den Engineers zur Lösung zugeschoben
Ich verstehe nicht, warum immer noch so viele glauben, dass AI Coding nur ein Hype ist.
Es hat noch nicht einmal vor 2 Jahren begonnen, und Unternehmen zahlen bereits Tausende Dollar pro Sitz; ich kenne sogar Firmen, die 5.000 Dollar pro Monat zahlen.
Man fragt sich, welches Tool jemals aus dem Nichts so schnell übernommen wurde.
Die AI-LLM-Pull-Requests, die man jetzt sieht, machen anderen nur mehr Arbeit, und die sogenannten „Builder“ sehen nur gut aus mit ihrem neuen Dashboard und ihren Demo-Features.
Aber man kann nicht über den Code-Fluss sprechen und auch nicht nach dem Denkprozess fragen, warum etwas so geworden ist.
Es ist nicht aus der Erfahrung vieler Menschen heraus von Grund auf gewachsen, sondern wirkt, als wäre es aus dem Nichts materialisiert worden, ohne grundlegende Trennung und mit kaum vorhandener Abstraktion.
Niemand will es anfassen. Die Pull-Requests sind viel zu groß, und ihre „Autoren“ stehen auch nicht mit uns on-call.
Sie kassieren den Ruhm, machen aber nicht die eigentliche Arbeit.
Es ist ein bisschen so, als würde man ein Haus entwerfen und es dann an Architekten und Ingenieure schicken mit den Worten: „Sorgt dafür, dass das funktioniert.“
Es gibt viele deutlich plausiblere Erklärungen für dieses Verhalten von Unternehmen als „weil AI Coding kein Hype ist“.
Die Pull-Requests sind zu groß, niemand kann dieses Chaos vernünftig reviewen, und wenn man es deployed hat, sollte man besser mit On-Call rechnen.
Es könnte besser werden oder auch nicht, im Moment wissen wir es noch nicht.
Es ist zu groß und zu schnell, um sich stabil anzufühlen. Vielleicht hält sich dieses Niveau, vielleicht wächst es weiter, oder vielleicht fällt es auf ein normaleres Nutzungs- und Budgetniveau zurück.
Ich nutze ein 100-Dollar-Abo, aber die API-Kosten der letzten 30 Tage liegen bei etwa 1.700 Dollar pro Monat.
Das hängt stark von der Nutzungsweise ab. Wenn man per Prompt ein detailliertes Design erstellt, es in eine Aufgabenliste zerlegt und dann in mehrere Agenten steckt, verbrennt man sehr leicht Tausende Dollar.
Wenn man vorsichtiger damit umgeht und immer nur ein paar Agenten interaktiv laufen lässt und sie für Pull-Request-Reviews, Issue-Behebung, automatisches Aufräumen, Performance-Optimierung usw. nutzt, kann man bei etwa 1.500 Dollar landen.
Wenn man nur einzelne Fragen wie an ein besseres Stack Overflow stellt, liegt man weit unter 100 Dollar.
In letzter Zeit bin ich total auf
/goalhängen geblieben; wenn man ein verifizierbares Ziel findet und es über Nacht laufen lässt, ist es am nächsten Morgen wie Weihnachten zu sehen, wie weit es gekommen ist.1.500 Dollar pro Monat sind 18.000 Dollar pro Jahr pro Sitz.
Vielleicht sehen Microsoft und Nvidia da etwas.
Selbst wenn eine 128GB-Maschine, auf der man lokale LLMs laufen lassen kann, 5.000 bis 8.000 Dollar kostet, wirkt das günstig. Die Token pro Sekunde reichen noch nicht ganz, aber es könnte okay sein.
Der eigentliche Flaschenhals ist nicht der Code, sondern was Uber mit all dem Geld überhaupt gebaut hat und welche positive, nennenswerte Auswirkung das auf den Umsatz hatte.
Persönlich finde ich alles unter 50 tok/s völlig unbrauchbar.
Davon abgesehen vergleicht man hier aber auch Äpfel mit Birnen. Die Inferenz offener Gewichtsmodelle ist ziemlich günstig, und Claude und OpenAI können im Vergleich zu DeepSeek oder den vielen Anbietern bei OpenRouter einfach sehr hohe Margen verlangen. Offene Modelle sind eben Commodity.
Laptops sind abschreibungsfähige Vermögenswerte, man hat keine Skaleneffekte, die Spezifikationen sind fix, und man schafft sich einen fragmentierten Gerätepark, dessen Modelle man aktuell halten muss.
Wenn man dann noch Stromverbrauch und Kühlung bedenkt, verstehe ich wirklich nicht, warum Unternehmen in diese Richtung gehen sollten.
Lokale Hardware wird teuer, wenn darauf ein komplexer Software-Stack läuft, der auf 10.000 Arten kaputtgehen kann.
Die lokalen AI-Server der Zukunft werden wahrscheinlich einfach per irgendeinem Protokoll für AI kommunizieren, in einer Ecke stehen, und niemand wird sich darum kümmern.
Trotzdem braucht man womöglich Zugriff auf verschiedene Systeme, also wer weiß, aber am Ende wird wohl jemand eine „AI in der Box“ mit aktuellen offenen Modellen anbieten.
Das entspricht mindestens 20 tok/s rund um die Uhr an 365 Tagen im Jahr, und in der Praxis ist es wahrscheinlich deutlich mehr.
Da offene Gewichtsmodelle selbst über seriöse westliche Anbieter viel günstiger sind als proprietäre Modelle, bräuchte man vermutlich mehr als 100 tok/s, um auf dieselben Ausgaben zu kommen, und damit ist man im Bereich von Rechenzentrumshardware.
Auf Prosumer-Plattformen könnte man den ersten Wert vielleicht erreichen, aber nur bei sehr speziellen Workloads. Bei agentischen Workloads mit viel Zeit für Prefill, was häufig vorkommt, sieht es noch schlechter aus. Für On-Premises-AI ist das eine große Einschränkung.
Wenn Ingenieure AI-Tools richtig einsetzen, können sie ihre Produktivität massiv steigern und LLMs wie Junior- oder Associate-Ingenieure einsetzen.
1.500 Dollar pro Monat sind im Vergleich zu diesem Produktivitätsniveau viel günstiger, und einen menschlichen Ingenieur einzustellen hätte deutlich mehr gekostet.
Lock-in-Effekte und Wechselkosten machen mir zunehmend Sorgen.
Ich nutze Claude seit etwa einem Jahr und habe darin ziemlich viel „Wissen“ angesammelt.
Wenn Claudes Preis-Leistungs-Verhältnis in Zukunft schlechter wird, würde mich das beunruhigen.
Ich habe angefangen, über dezentrale Lösungen nachzudenken, bei denen Speicherung und Inferenz getrennt sind, aber im Moment ist Claude immer noch die Wahl. Ich frage mich, ob andere ähnliche Sorgen haben.
Wo wird dieses Wissen gespeichert?
Mein Wissen speichere ich normalerweise in Planungsdokumenten außerhalb des Agenten.
Und die einzelnen Agentenfenster archiviere ich ohnehin regelmäßig.
Wenn ein Mitarbeiter sein AI-/LLM-Budget nicht ausgibt, kann er dann stattdessen eine Gehaltserhöhung bekommen?
Ich verstehe nicht, warum es in großen Unternehmen nicht üblicher ist, Self-Hosting für Open-Weights-Modelle zu betreiben oder, auch wenn es nicht unbedingt On-Premises sein muss, GPU-Server zu mieten oder sie bei Anbietern wie Together AI hosten zu lassen
Ich habe sowohl Open-Weights-Modelle als auch Premium-Modelle wie Opus und Gemini Pro genutzt, und Letztere sind zwar etwas besser, aber bei weitem nicht so viel besser, dass sie den Preisunterschied rechtfertigen würden
Für meine Anwendungsfälle war der Unterschied meist nicht wichtig, und ich nehme an, dass viele andere Nutzer ähnliche Anwendungsfälle haben
Es ist ein völlig anderer Fall, einem herausragenden Entwickler/Hacker einen starken GPU-Server zu geben und ihn beliebige Modelle betreiben zu lassen, als eine solche Plattform für das gesamte Unternehmen zu betreiben
Man braucht Personal, Backend, Verfügbarkeit und alles Weitere, um solche Modelle zu verstehen und zu warten, und dieses Personal wird wahrscheinlich deutlich mehr kosten als das Gehalt normaler Softwareentwickler
Wegen dieses zusätzlichen Aufwands ist es einfacher, einem erstklassigen externen Forschungslabor Geld zu zahlen und allen vernünftige Ausgabenlimits zu setzen
Die Auslastung solcher riesigen Racks wird nicht 24/7/365 hoch sein, und meist ist die Organisation auch nicht so GPU-zentriert, dass sie die überschüssige Rechenleistung zum Trainieren von Modellen nutzen könnte
Wenn der Preis bei 100.000 bis 200.000 Dollar oder mehr liegt und die Lebensdauer etwa 2 Jahre beträgt, ist das finanziell schwer zu rechtfertigen
Selbst beim Self-Hosting kann man bei Abschreibung über mehrere Entwickler leicht auf etwa 1000 Dollar im Monat kommen, und zu Spitzenzeiten gibt es harte Geschwindigkeitsbegrenzungen
Rechtfertigen die 500 Dollar, die übrig bleiben, wenn man von 1500 Dollar pro Monat 1000 Dollar abzieht, einen Rückgang der „AI-Produktivität“ um 10 %? In den meisten Fällen wohl nicht
Kurzfristig würde ich sagen: Wenn es keinen sehr guten Grund gibt, ein Coding-Assistant-Modell unbedingt selbst zu hosten, sind die 2 bis 3 führenden Anbieter von Coding-Assistenten die bessere Wahl
Niemand wurde entlassen, weil er eine Claude-Code-Lizenz gekauft hat
Allein schon GPU-Ressourcen für mehrere Nutzer zu poolen und bereitzustellen und dabei Sicherheitskontrollen einzuhalten sowie Dokumente und Data Lakes anzubinden, ist alles andere als trivial
Am Ende bezahlt man ohnehin ein Team dafür, das zu verwalten
Man braucht dedizierte Hardware im Rechenzentrum und Fachleute, die sie betreiben
Das Unternehmen muss zusätzlich zum eigentlichen Kerngeschäft Wege finden, Beschaffung, Assets, Kosten und tausend andere Dinge zu managen
Und wer hat all das bereits gelöst? AWS/Azure/OpenAI usw.
Die Wartung von Hardware und die Einstellung von Fachleuten für den Betrieb von Services kosten Geld
Bei etwas so Gewöhnlichem wie LLM-Modelle gibt es überhaupt keinen Grund, Modelle auf eigener Hardware bereitzustellen, sofern man nicht ein Unternehmen ist, das extrem empfindlich darauf reagiert, Bytes an AWS zu senden
Interessanter als die Zahl eines Limits von 1500 Dollar pro Monat ist die Tatsache, dass sie überhaupt bei einem Limit angekommen sind
Die meisten Engineering-Teams, mit denen ich gesprochen habe, wissen nicht, wie hoch die AI-Ausgaben pro Entwickler sind, weil sie in einer konsolidierten Cloud-Rechnung untergehen
Ein hartes Limit erzwingt zwei nützliche Diskussionen: Welche Workflows API-Aufrufe rechtfertigen und bei welchen lokale Inferenz ausreicht, und ob die Ergebnisse tatsächlich mit Produktivitätskennzahlen verglichen werden
Ohne eine solche Feedback-Schleife wird es nur ein Rennen darum, wer am schnellsten Tokens verbrennt
Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
Die Argumentationslinie „Ein Limit von 1500 Dollar pro Monat und Tool wirkt wie eine vernünftige politische Reaktion auf Überkonsum“ und „Meine Token-Nutzung liegt bei Anthropic und OpenAI jeweils bei etwa 1000 Dollar im Monat, aber dank großzügig subventionierter Pläne für Einzelnutzer zahle ich derzeit nur 100 Dollar pro Anbieter“ fühlt sich wie ein Multi-Level-Marketing-Geschäft an
Es wirkt wie eine Struktur, in der die „Diamanten“ Geld verdienen, indem sie auf Seminaren MLM bewerben, und den hoffnungsvollen Leuten ganz unten erzählen: „Ein AI-Abo zu kaufen ist jetzt deine einmalige Chance, im Leben zu den Gewinnern zu gehören“
Vielleicht gibt es da etwas, das mit MLM vs LLM FOMO erzeugt