Die Kombination aus ausgelagerten Fachkräften + LocalAI wird bald wirtschaftlicher sein als Frontier Labs
(signalbloom.ai)- Während die API-Preise der US-Frontier-Labs kontinuierlich steigen, etabliert sich die Kombination aus Ingenieuren in Niedriglohnländern und Open-Source-Modellen wie DeepSeek als wirtschaftliche Alternative
- Neueste Frontier-Modelle wie GPT-5.5, Gemini 3.5 Flash und Opus-4.7 haben Preiserhöhungen um das 2- bis 3-Fache oder einen höheren Token-Verbrauch eingeführt
- Beim Vergleich auf Basis von Blend-Tokens liegen Anthropic und OpenAI bei etwa $2.80/M, DeepSeek bei $0.094/M – ein Preisunterschied von rund dem 30-Fachen
- Frontier-Modelle sind zwar leistungsfähiger, aber für Coding-Zwecke sind OSS-Modelle bereits gut genug; in Kombination mit fähigen Ingenieuren lässt sich die Lücke ausgleichen
- Ein Grund, warum Preiserhöhungen nicht unbegrenzt weitergehen können: Die Kombination aus Outsourcing + LocalAI wirkt als Preisobergrenze
Steigende Inferenzkosten bei Frontier Labs
- Entgegen der verbreiteten Annahme sinkender Inferenzkosten zeigen die Preise der US-Frontier-Labs einen klaren Aufwärtstrend
- GPT-5.5 ($5/$30) erschien nur 2 Monate nach GPT-5.4, dabei wurden die API-Preise insgesamt verdoppelt
- Gegenüber GPT-5 ($1.25/$10) vor 8 Monaten ist es mehr als dreimal so teuer
- Gemini 3.5 Flash ($1.50/$9.00) ist gegenüber dem Vorgängermodell Gemini-3-flash-preview ($0.50/$3.00) dreimal so teuer
- Auch Gemini-3-flash-preview war bereits teurer als 2.5 Flash ($0.30/$2.50)
- Bei Anthropic Opus-4.7 steigt durch die Einführung eines neuen Tokenizers der Token-Verbrauch um 32 bis 47 %, was die effektiven Kosten gegenüber Opus-4.6 erhöht
Vergleich: geschlossene Frontier-Modelle vs. Open-Source-Modelle
- Vergleich auf Basis des Blend-Token-Verbrauchsverhältnisses: angenommen werden 50k Ausgabetokens pro 1M Eingabetokens (+ Cache), also unter etwa 5 %
- Bei großen Agent-Loop-Workloads ist der Leseanteil wegen der vielen Turns hoch, daher eine konservative Schätzung
- Vergleich der durchschnittlichen Blend-Preise je Anbieter unter Berücksichtigung von Caching (Quelle: openrouter.ai)
-
Preisvergleich nach Anbietern
- Anthropic: Input $1.57 / Output $25.00 / Cache-Trefferquote 79.6 % → Blend $2.82
- OpenAI: Input $1.30 / Output $30.22 / Cache-Trefferquote 84.8 % → Blend $2.80
- DeepSeek: Input $0.055 / Output $0.870 / Cache-Trefferquote 88.1 % → Blend $0.094
- Geschlossene Frontier-Modelle sind derzeit zwar leistungsfähiger als die neuesten Modelle von DeepSeek, aber ob dieser Vorsprung einen 30-fachen Preisunterschied rechtfertigt, ist fraglich
- OSS-LLMs müssen nicht Frontier-Niveau erreichen; sie brauchen lediglich ausreichende Leistung für Coding-Aufgaben – und dieses Niveau haben sie bereits erreicht
Trend zu steigendem Token-Verbrauch
- Der Tokenmaxxing-Trend hat sich in den letzten Monaten und Jahren beschleunigt (siehe Pragmatic-Engineer-Blog)
- Unter fähigen Ingenieuren besteht weitgehend Einigkeit darüber, dass es töricht ist, Tokenmaxxing zum Ziel zu machen – das ist jedoch ein eigenes Thema
- Der starke Anstieg des Token-Verbrauchs zeigt sich auch an der anhaltenden Knappheit bei GPUs
- Sowohl der Token-Verbrauch als auch die Preise pro Token steigen gleichzeitig, verknüpft mit der Strategie der US-Frontier-Labs zur Abschöpfung von Wert
(Mensch + Semi-Frontier-LLM) vs. Frontier-LLM
- Es gibt eine separate Analyse, die menschliche Ingenieure und AI-Agenten über 12 Dimensionen hinweg vergleicht (signalbloom.ai)
- Fazit: AI-Agenten haben den Menschen beim Coding bereits überholt und werden ihn wohl auch beim eingegrenzten Debugging bald überholen
- Andere Kernfähigkeiten, die für gutes Engineering nötig sind, liegen bei AI jedoch weiterhin zurück
- Langzeitgedächtnis (long-term memory)
- Meta memory: die Fähigkeit, klar zwischen dem zu unterscheiden, was man weiß und was man nicht weiß
- Evidential Sufficiency Assessment: die Beurteilung, ob genügend Evidenz für eine Handlung vorliegt
- Die heutigen statistischen Architekturen müssen ergänzt oder durch einen anderen Durchbruch ersetzt werden
- Task-Ausführungskompetenz und AI-Autonomie sind nicht dasselbe
Szenario des Kosten-Kreuzungspunkts
-
Kernvergleich
- Analysiert wird der Zeitpunkt, an dem die Kombination aus Ingenieur in einem Niedriglohnland + hinreichend fähigem Modell beim Preis-Leistungs-Verhältnis besser abschneidet als ein Top-Frontier-Modell
- Variablen: Ingenieursgehalt, Gehaltswachstumsrate, anfängliches Token-Volumen, Token-Wachstumsrate, Frontier-Preis, Änderungsrate des Frontier-Preises, DeepSeek-Preis, Zeitraum
-
Ergebnis
- Nach 11 Monaten kommt es zum Kreuzungspunkt: Die Frontier-Inferenzkosten übersteigen dann die Kosten der Kombination aus Ingenieur + DeepSeek ($1,116.61/Monat)
Einschätzung und Grenzen
- Das Diagramm enthält vereinfachende Annahmen
- Variablen wie künftige Inferenzpreise oder Trends beim Token-Verbrauch
- Reflexivität: Marktteilnehmer verändern ihr Verhalten auf Basis der beobachteten Ergebnisse
- Die folgenden Faktoren sind nicht berücksichtigt; mit ihnen würde das Bild noch stärker zugunsten lokaler Modelle ausfallen
- die schnelle Verbesserung der Leistungsfähigkeit lokaler Modelle
- zusätzliche Inferenz-Hardware, die in den kommenden Monaten und Jahren hinzukommt
- Die Kernaussage: Steigende AI-Kosten führen ab einem gewissen Niveau zu besorgniserregendem Cash-Burn für Unternehmen und machen einen großen Teil der Gesamtausgaben aus
- Dadurch entsteht eine Obergrenze für Ausmaß und Tempo von Preiserhöhungen bei Frontier Labs
1 Kommentare
Hacker-News-Kommentare
Bei der Diskussion über LLM-Preise wird der Kernpunkt verfehlt. Tokenpreise im Abonnement sind 10- bis 40-mal günstiger als API-Preise, daher entspricht ein Claude-Abo für 90 $ pro Monat, in API-Tokenpreisen umgerechnet, fast 1000–4000 $
Zweitens macht die Kompetenz des „Operators“, der mit dem Modell arbeitet, einen enormen Unterschied bei den Ergebnissen. Ein erfahrener Senior-Entwickler mit guten Prompts und hoher Eigeninitiative erzielt deutlich bessere Resultate als ein Teammitglied mit wenig Motivation und schwachen Grundlagen
Und schließlich gibt es zwischen einem hochmodernen 5T-Modell wie Opus und den kleinen destillierten Modellen von DeepSeek, die vor allem in Benchmarks glänzen, große Unterschiede bei Fähigkeiten, Determinismus und Fehlerbehandlung
Damit zahlen Großunternehmen am Ende deutlich mehr als mit vergünstigten Abomodellen
Und die Aussage, lokale Modelle seien „aus DeepSeek destilliert“, scheint falsch zu sein. Lokale Modelle schneiden nicht nur in Benchmarks gut ab, und Qwen 3.6 ist ein ziemlich ordentliches Modell. Natürlich ist es nicht Opus, aber es ist viel schneller, und Geschwindigkeit ist selbst auch eine Form von Qualität
Diese Unternehmen machen riesige Verluste und haben Verbindlichkeiten und Zusagen in Höhe von Hunderten Milliarden Dollar. Sie müssen den Hahn zur Monetarisierung bald aufdrehen
Das scheint den Wald vor lauter Bäumen nicht zu sehen. Mit ChatGPT zu arbeiten fühlt sich unheimlich ähnlich an wie früher in Enterprise-Zeiten mit indischen Offshore-Entwicklern zu arbeiten. Mit klaren Anweisungen sind sie produktiv, aber wenn man sie sich selbst überlässt, entstehen viele WTF-Momente
LLMs könnten ausgelagerte Entwickler ersetzen. Mitarbeitende im Unternehmen, die den Kontext kennen, können LLMs nutzen, um die Arbeit zu erledigen, die früher Offshore-Entwickler gemacht haben
Unternehmen versuchen immer, die Grenzkosten zu senken. Sie werden in den USA einen Softwarearchitekten einstellen, der die Spezifikationen schreibt, und zehn Entwickler in Indien, die sich um 100 Agenten kümmern
Im Gegensatz zu Remote-Entwicklern besteht das Problem bei Outsourcing darin, dass man, damit es wirklich funktioniert, einen wirklich hervorragenden Manager und technischen Leiter braucht.
Meiner Erfahrung nach muss man für effektive Ergebnisse sehr detaillierte Designdokumente und Arbeitsspezifikationen schreiben. In der Regel müssen sie so detailliert sein wie ein effektiver Prompt.
Wenn man bereits Spezifikationen in diesem Detailgrad geschrieben hat, warum braucht man dann überhaupt Outsourcing-Entwickler und ein Frontier-Modell?
Unternehmen mit starken Produkt-/Projektleitern, die sehr sorgfältig überwachen, könnten eine neue Generation von Entwicklern hervorbringen, aber manche Unternehmen werden dem Marketing glauben und scheitern, während ihre Software unwartbar wird.
Ich denke, dass es auch in 10 Jahren ungefähr so viele Entwickler geben wird wie heute und dass sie mehr Produkte bauen werden. AI wird für die Automatisierung sinnvoll abgegrenzter Bereiche eingesetzt werden, aber der Großteil der Softwareentwicklung wird auf einem höheren Abstraktionsniveau stattfinden, das dieselben Konzepte mit weniger Textmüll ausdrückt.
Der Kern von Code wird sich stärker darauf konzentrieren, die Komplexität seltsamer Grenzfälle konkret zu kodieren und sichtbar zu machen.
Als ich mit der Softwareentwicklung anfing, arbeitete ich an einem extrem chaotischen MUD, das durch viele Hände gegangen war. Es ist schwer vorstellbar, wer bereitwillig einen von AI ohne strenge Aufsicht und Korrekturen erzeugten Haufen Schlamm und Spaghetti-Code durchwühlen möchte.
Im Kern ging es bei Softwareentwicklung immer um Problemlösung, genauer gesagt um Problemerkennung. Mit der Zeit haben wir immer mehr Nebensächliches entfernt, um uns auf genau diesen Punkt zu konzentrieren. Dieser Trend wird weitergehen, sich zu kompakteren und abstrakteren Sprachen zur Problemformulierung entwickeln, und knifflige Logikflüsse, Treiberteile und Mathematik werden stärker in Bibliotheken und Tools isoliert.
Selbst wenn die Ingenieure kooperativ sind, scheuen die Manager oder Inhaber enge Zusammenarbeit und erzwingen eine distanzierte Arbeitsweise. Zum Beispiel ein Anruf pro Woche.
Ich habe das selbst erlebt. Einmal wurden £300k für ein ausgelagertes Entwicklungsteam ausgegeben, glücklicherweise nicht mein Geld, und am Ende wurde nichts geliefert. Die meiste Zeit ging einfach dafür drauf, die Arbeitsrichtung abzustimmen.
Mein Partner und ich wussten einigermaßen, was wir wollten, und versuchten, uns häufiger abzustimmen, um die Anstrengungen zu synchronisieren, aber deren Manager blockierten das ständig. Das ist das Consulting-Geschäftsmodell.
Bei fest angestellten Remote-Mitarbeitern sind die Anreize genau umgekehrt. Sie sind buchstäblich Vollzeitangestellte, es gibt keine Managementschicht, die die Kommunikation behindert, und solange sie nicht faul oder Betrüger sind, wollen sie interessante Probleme lösen und nicht untätig herumsitzen.
Ich denke, genau dort liegt auch die verfehlte Annahme des Originaltexts. Der Unterschied zwischen DeepSeek und Frontier-Modellen ist normalerweise nichts, das man mit minderwertigem Outsourcing überbrücken kann. Am Ende zahlt man doch für sehr erfahrene Outsourcing-Ingenieure, und die sind möglicherweise gar nicht so billig. Outsourcing geschieht ohnehin nicht nur wegen der Kosten, sondern auch wegen Kompetenz und Kapazität.
Man muss alles bis zu einem angemessenen Detaillierungsgrad spezifizieren, und an diesem Punkt stehen die Chancen gut, dass ein LLM es ebenfalls ziemlich gut hinbekommt. Außerdem bauen viele Outsourcing-Teams auf eine völlig andere Weise als interne Teams, und der Unterschied bei Lieferqualität und Tempo ist enorm.
Da sich gerade alles so schnell verändert, frage ich mich auch, warum ich meine Zeit und mein Geld dafür aufwenden sollte, die Mitarbeiter anderer Leute auf den neuesten Stand zu bringen.
Ich habe einen Freund, der Führungskraft in einem amerikanischen Softwareunternehmen ist, und er bereitet sich darauf vor, einige Teams von Programmierern in osteuropäischen Niederlassungen zu entlassen und sie durch eine kleine Zahl amerikanischer Programmierer und AI zu ersetzen. Das sei deutlich produktiver, und neue Funktionen würden viel schneller gebaut.
Auf die Fertigungsindustrie übertragen heißt das: Eine Robotik-zuerst-Strategie sollte nicht nur darauf abzielen, die Fertigung ins Inland zurückzuholen, sondern höher zielen. Nämlich selbst zu einem neuen ausgelagerten Fertigungsstandort zu werden.
Deshalb könnten kleine und mittlere Unternehmen künftig nicht mehr so viele interne Ingenieure, Finanz- und Marketingkräfte brauchen wie heute.
Die Zukunft amerikanischer Frontier-AI besteht nicht aus API-Aufrufen, sondern daraus, Arbeit zu OAI/Anthropic zu bringen wie zu Beratern oder externen Dienstleistern und produktähnliche Ergebnisse zu erhalten, ohne die Zwischenarbeit in großem Umfang zu sehen.
Das ist unvermeidlich durch die Kombination aus Destillationsbedrohung und dem Entwicklungsaufwand für proprietäre Ausführungsumgebungen, die nötig sind, um Frontier-Performance maximal auszureizen.
OAI/Anthropic werden versuchen, 100 % aller Jobs wegzunehmen und die „Arbeit“ zu besitzen. Hier ist die chinesische Seite die gute Seite.
Was sie dabei nicht begreifen, ist, dass das Definieren schwieriger ist als die Lösung selbst.
Ich habe wirklich sehr viel versucht, um lokale Modelle irgendwie nutzbar zu machen. Ich habe verschiedene Laufzeitumgebungen, Tools, Skills und Prompts ausprobiert.
Aber wenn man Claude Code und Anthropic-Modelle oder Codex und GPT 5.5 mit Qwen, GLM und Gemma in vergleichbaren Laufzeitumgebungen vergleicht, sind die State-of-the-Art-Modelle überwältigend überlegen. Inzwischen verstehe ich den Sinn von Nicht-Spitzenmodellen nicht mehr. Die vergeudete Zeit ist größer als die eingesparte Zeit
Für eng begrenzte Coding-Aufgaben, zum Beispiel das Schreiben einer bestimmten Funktion, geht es zwar langsam, aber es ist machbar. Für gewöhnliche LLM-Chat-Nutzung auf gehobener Consumer-Hardware sind sie, abgesehen von den Kosten, aber durchaus konkurrenzfähig.
https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Wenn die Inferenzkosten weiter sinken, wie schon in den letzten Jahren, wird man gegen Ende dieses Jahres die heutigen Spitzenmodelle auf einem Laptop laufen lassen können
Für Softwareingenieure ist das praktisch mehr als genug, um es überhaupt auszuschöpfen, und wenn man die Effizienzsteigerung bedenkt, ist es sehr günstig.
Außerdem: Wenn Claude/Codex schon gut funktioniert und jeden Monat besser wird, wer will dann noch an Laufzeitumgebungen herumspielen oder Agenten-Orchestrierung definieren?
Das wahrscheinlichere Szenario ist, dass das untere Ende verschwindet und das obere Ende durch State-of-the-Art-Modelle produktiver wird.
Je schwächer der Entwickler, desto stärker muss die AI sein. Die Prämisse dieses Artikels trägt nicht, weil sie verwechselt, ob schwache Entwickler mit schwacher AI besser seien als starke Entwickler mit beinahe autonomer AI.
Produkte von schwachen Entwicklern mit modernster AI sind schon jetzt schlechter als die von kompetenten Entwicklern mit schwächerer AI von vor zwei Jahren.
Anders gesagt: Starke Entwickler konnten schon vor zwei Jahren mit AI hochwertige Produkte bauen. Mit aktueller AI tun sich schwache Entwickler immer noch schwer, während starke Entwickler mit stärkerer AI noch mehr Arbeit delegieren und ihre Produktivität weiter steigern können
Albtraumhafte Organisationen mit unbetreuten Auftragnehmern oder übermäßig vielen Juniors wären in einer Zeit wie dieser noch viel tödlicher
Ich sehe immer wieder das Narrativ, DeepSeek als Beispiel für Open-Source-LLMs anzuführen, aber dort werden riesige Mengen an Tokens zum Selbstkostenpreis subventioniert. Wenn man nicht faul ist und kritisch nachdenkt, ist leicht zu verstehen, warum.
Besonders in einer Lage, in der Inferenz-Hardware wegen geopolitischer Risiken stark eingeschränkt ist, ist es noch viel zu teuer und ineffizient, lokale AI zu nutzen, die an das Niveau von State-of-the-Art-Modellen heranreicht.
Ich bezweifle auch stark die Behauptung, dass lokale LLMs diese Frontier-Unternehmen langfristig bedrohen könnten.
Tokens werden teurer, weil diese Unternehmen beginnen, den Markt zu beherrschen, und diesen Vorsprung nutzen werden, um die Hardware-Verteilung innerhalb und außerhalb ihrer Grenzen einzuschränken.
Lokale LLMs werden in manchen Workflows wahrscheinlich stärker genutzt werden, aber nicht bei Aufgaben, die das Niveau von State-of-the-Art-Modellen erfordern, und es wird schwer sein, die Preise zu schlagen, mit denen leichtere und kleinere Varianten der Spitzenmodelle den Long Tail abdecken wollen
Mein Eindruck ist, dass DeepSeek v4 speziell für günstige Inferenz entwickelt hat und selbst bei 75 % niedrigeren Preisen keinen Verlust macht
Ich denke, Qualitätserfahrung und persönliche Wertvorstellungen sind wichtiger als Engineering-Kosten. In den letzten Jahren habe ich bei ausgelagerter Arbeit zu viele Abkürzungen gesehen, und AI liebt Abkürzungen ebenfalls sehr. Die Kombination aus beidem ist den Kostenvorteil nicht wert.
Wenn man hochwertige Arbeit und Stolz auf die eigene Arbeit schätzt, sind ausgelagerte Kräfte nicht die Lösung. Im Allgemeinen sind sie gerade deshalb günstiger, weil sie ihrer Arbeit keine sorgfältige Aufmerksamkeit widmen.
Wenn es einem andererseits nur darum geht, irgendwie fertig zu werden und nicht darum, ob es wirklich richtig gemacht wurde, gibt es wohl nichts Besseres, als so wenig Geld wie möglich auszugeben
Im Artikel fehlt ein Aspekt. Gute Engineers verbringen in bestehenden Projekten im Verhältnis zu anderen Aufgaben gar nicht so viel Zeit mit dem eigentlichen Coding. Gute Engineers verstehen das System Ende zu Ende. Offshore-Entwickler sind schlechter als Llama3