Die Kombination aus ausgelagerten Fachkräften + LocalAI wird bald wirtschaftlicher sein als Frontier Labs

(signalbloom.ai)

14 Punkte von GN⁺ 2026-05-28 | 2 Kommentare | Auf WhatsApp teilen

Während die API-Preise der US-Frontier-Labs kontinuierlich steigen, etabliert sich die Kombination aus Ingenieuren in Niedriglohnländern und Open-Source-Modellen wie DeepSeek als wirtschaftliche Alternative
Neueste Frontier-Modelle wie GPT-5.5, Gemini 3.5 Flash und Opus-4.7 haben Preiserhöhungen um das 2- bis 3-Fache oder einen höheren Token-Verbrauch eingeführt
Beim Vergleich auf Basis von Blend-Tokens liegen Anthropic und OpenAI bei etwa $2.80/M, DeepSeek bei $0.094/M – ein Preisunterschied von rund dem 30-Fachen
Frontier-Modelle sind zwar leistungsfähiger, aber für Coding-Zwecke sind OSS-Modelle bereits gut genug; in Kombination mit fähigen Ingenieuren lässt sich die Lücke ausgleichen
Ein Grund, warum Preiserhöhungen nicht unbegrenzt weitergehen können: Die Kombination aus Outsourcing + LocalAI wirkt als Preisobergrenze

Steigende Inferenzkosten bei Frontier Labs

Entgegen der verbreiteten Annahme sinkender Inferenzkosten zeigen die Preise der US-Frontier-Labs einen klaren Aufwärtstrend
GPT-5.5 ($5/$30) erschien nur 2 Monate nach GPT-5.4, dabei wurden die API-Preise insgesamt verdoppelt
- Gegenüber GPT-5 ($1.25/$10) vor 8 Monaten ist es mehr als dreimal so teuer
Gemini 3.5 Flash ($1.50/$9.00) ist gegenüber dem Vorgängermodell Gemini-3-flash-preview ($0.50/$3.00) dreimal so teuer
- Auch Gemini-3-flash-preview war bereits teurer als 2.5 Flash ($0.30/$2.50)
Bei Anthropic Opus-4.7 steigt durch die Einführung eines neuen Tokenizers der Token-Verbrauch um 32 bis 47 %, was die effektiven Kosten gegenüber Opus-4.6 erhöht

Vergleich: geschlossene Frontier-Modelle vs. Open-Source-Modelle

Vergleich auf Basis des Blend-Token-Verbrauchsverhältnisses: angenommen werden 50k Ausgabetokens pro 1M Eingabetokens (+ Cache), also unter etwa 5 %
- Bei großen Agent-Loop-Workloads ist der Leseanteil wegen der vielen Turns hoch, daher eine konservative Schätzung
Vergleich der durchschnittlichen Blend-Preise je Anbieter unter Berücksichtigung von Caching (Quelle: openrouter.ai)
Preisvergleich nach Anbietern
- Anthropic: Input $1.57 / Output $25.00 / Cache-Trefferquote 79.6 % → Blend $2.82
- OpenAI: Input $1.30 / Output $30.22 / Cache-Trefferquote 84.8 % → Blend $2.80
- DeepSeek: Input $0.055 / Output $0.870 / Cache-Trefferquote 88.1 % → Blend $0.094
Geschlossene Frontier-Modelle sind derzeit zwar leistungsfähiger als die neuesten Modelle von DeepSeek, aber ob dieser Vorsprung einen 30-fachen Preisunterschied rechtfertigt, ist fraglich
OSS-LLMs müssen nicht Frontier-Niveau erreichen; sie brauchen lediglich ausreichende Leistung für Coding-Aufgaben – und dieses Niveau haben sie bereits erreicht

Trend zu steigendem Token-Verbrauch

Der Tokenmaxxing-Trend hat sich in den letzten Monaten und Jahren beschleunigt (siehe Pragmatic-Engineer-Blog)
Unter fähigen Ingenieuren besteht weitgehend Einigkeit darüber, dass es töricht ist, Tokenmaxxing zum Ziel zu machen – das ist jedoch ein eigenes Thema
Der starke Anstieg des Token-Verbrauchs zeigt sich auch an der anhaltenden Knappheit bei GPUs
Sowohl der Token-Verbrauch als auch die Preise pro Token steigen gleichzeitig, verknüpft mit der Strategie der US-Frontier-Labs zur Abschöpfung von Wert

(Mensch + Semi-Frontier-LLM) vs. Frontier-LLM

Es gibt eine separate Analyse, die menschliche Ingenieure und AI-Agenten über 12 Dimensionen hinweg vergleicht (signalbloom.ai)
Fazit: AI-Agenten haben den Menschen beim Coding bereits überholt und werden ihn wohl auch beim eingegrenzten Debugging bald überholen
Andere Kernfähigkeiten, die für gutes Engineering nötig sind, liegen bei AI jedoch weiterhin zurück
- Langzeitgedächtnis (long-term memory)
- Meta memory: die Fähigkeit, klar zwischen dem zu unterscheiden, was man weiß und was man nicht weiß
- Evidential Sufficiency Assessment: die Beurteilung, ob genügend Evidenz für eine Handlung vorliegt
Die heutigen statistischen Architekturen müssen ergänzt oder durch einen anderen Durchbruch ersetzt werden
Task-Ausführungskompetenz und AI-Autonomie sind nicht dasselbe

Szenario des Kosten-Kreuzungspunkts

Kernvergleich
- Analysiert wird der Zeitpunkt, an dem die Kombination aus Ingenieur in einem Niedriglohnland + hinreichend fähigem Modell beim Preis-Leistungs-Verhältnis besser abschneidet als ein Top-Frontier-Modell
- Variablen: Ingenieursgehalt, Gehaltswachstumsrate, anfängliches Token-Volumen, Token-Wachstumsrate, Frontier-Preis, Änderungsrate des Frontier-Preises, DeepSeek-Preis, Zeitraum
Ergebnis
- Nach 11 Monaten kommt es zum Kreuzungspunkt: Die Frontier-Inferenzkosten übersteigen dann die Kosten der Kombination aus Ingenieur + DeepSeek ($1,116.61/Monat)

Einschätzung und Grenzen

Das Diagramm enthält vereinfachende Annahmen
- Variablen wie künftige Inferenzpreise oder Trends beim Token-Verbrauch
- Reflexivität: Marktteilnehmer verändern ihr Verhalten auf Basis der beobachteten Ergebnisse
Die folgenden Faktoren sind nicht berücksichtigt; mit ihnen würde das Bild noch stärker zugunsten lokaler Modelle ausfallen
- die schnelle Verbesserung der Leistungsfähigkeit lokaler Modelle
- zusätzliche Inferenz-Hardware, die in den kommenden Monaten und Jahren hinzukommt
Die Kernaussage: Steigende AI-Kosten führen ab einem gewissen Niveau zu besorgniserregendem Cash-Burn für Unternehmen und machen einen großen Teil der Gesamtausgaben aus
Dadurch entsteht eine Obergrenze für Ausmaß und Tempo von Preiserhöhungen bei Frontier Labs

2 Kommentare

hmmhmmhm 2026-05-29

Fürs Coding scheint Qwen 3.6 35B A3B und für Research Gemma 26B A4B einigermaßen brauchbare Ergebnisse zu liefern, aber ich wünschte, es gäbe mehr günstige On-Device-Hardware. Man braucht mindestens einen Apple M4 Pro oder höher bzw. eine RTX 5070 Ti mit 16 GB oder mehr, damit es überhaupt so gerade eben läuft....

GN⁺ 2026-05-28

Hacker-News-Kommentare

Bei der Diskussion über LLM-Preise wird der Kernpunkt verfehlt. Tokenpreise im Abonnement sind 10- bis 40-mal günstiger als API-Preise, daher entspricht ein Claude-Abo für 90 $ pro Monat, in API-Tokenpreisen umgerechnet, fast 1000–4000 $
Zweitens macht die Kompetenz des „Operators“, der mit dem Modell arbeitet, einen enormen Unterschied bei den Ergebnissen. Ein erfahrener Senior-Entwickler mit guten Prompts und hoher Eigeninitiative erzielt deutlich bessere Resultate als ein Teammitglied mit wenig Motivation und schwachen Grundlagen
Und schließlich gibt es zwischen einem hochmodernen 5T-Modell wie Opus und den kleinen destillierten Modellen von DeepSeek, die vor allem in Benchmarks glänzen, große Unterschiede bei Fähigkeiten, Determinismus und Fehlerbehandlung
- Ich habe heute erfahren, dass der Anthropic-Enterprise-Plan, den Großunternehmen wegen Governance-Funktionen und Audit-Logs nutzen, zusätzlich zu den API-Token-Tarifen mit 20 $ pro Monat und Sitz berechnet wird
  Damit zahlen Großunternehmen am Ende deutlich mehr als mit vergünstigten Abomodellen
- Mich würde interessieren, worauf sich die Behauptung stützt, dass Opus ein 5T-Modell ist
  Und die Aussage, lokale Modelle seien „aus DeepSeek destilliert“, scheint falsch zu sein. Lokale Modelle schneiden nicht nur in Benchmarks gut ab, und Qwen 3.6 ist ein ziemlich ordentliches Modell. Natürlich ist es nicht Opus, aber es ist viel schneller, und Geschwindigkeit ist selbst auch eine Form von Qualität
- Auch nicht-hochmoderne Modelle werden weiter verbessert. Wenn jemand 90 % der Arbeit mit DeepSeek für 100 $ erledigen und den Rest mit Anthropic oder OpenAI für weitere 100 $ abschließen kann, wird er sich wahrscheinlich dafür entscheiden, statt Anthropic oder OpenAI 1000 $ zu zahlen
- Dass Tokenpreise im Abo 10- bis 40-mal billiger sind als über die API, ist nur ein vorübergehendes Phänomen. In den nächsten Monaten ist mit deutlichen Preiserhöhungen oder strengen Nutzungsbeschränkungen zu rechnen, oder mit beidem
  Diese Unternehmen machen riesige Verluste und haben Verbindlichkeiten und Zusagen in Höhe von Hunderten Milliarden Dollar. Sie müssen den Hahn zur Monetarisierung bald aufdrehen
- Wenn man weiß, dass ein Claude-Abo für 90 $ im API-Maßstab 1000–4000 $ wert ist, hältst du es dann wirklich für irrational, diese Struktur als nicht nachhaltig zu betrachten?
Das scheint den Wald vor lauter Bäumen nicht zu sehen. Mit ChatGPT zu arbeiten fühlt sich unheimlich ähnlich an wie früher in Enterprise-Zeiten mit indischen Offshore-Entwicklern zu arbeiten. Mit klaren Anweisungen sind sie produktiv, aber wenn man sie sich selbst überlässt, entstehen viele WTF-Momente
LLMs könnten ausgelagerte Entwickler ersetzen. Mitarbeitende im Unternehmen, die den Kontext kennen, können LLMs nutzen, um die Arbeit zu erledigen, die früher Offshore-Entwickler gemacht haben
- Wie viele dieser WTF-Momente liegen einfach daran, „nicht in dem Raum gewesen zu sein, in dem das entschieden wurde“? Die meiste Enterprise-Software ist voller WTF-Momente, die durch allerlei Kompromisse in den Anforderungen entstanden sind
- Auch außerhalb deines Landes gibt es talentierte Entwickler, die die Sprache gut genug beherrschen und bereit sind, für weniger Geld zu arbeiten. Es gibt genug Gründe, warum es mehr solcher Entwickler geben wird
- Wenn man sieht, wie viele Outsourcing-Teams auf LinkedIn um Aufträge betteln, passt das ziemlich genau ins Bild
- Auch „indische Offshore-Entwickler“ sind nicht zu unterschätzen. Sie haben ebenfalls Zugang zu denselben GPT-Modellen, und ihre Kosten liegen womöglich bei einem Zehntel des US-Median-Gehalts
  Unternehmen versuchen immer, die Grenzkosten zu senken. Sie werden in den USA einen Softwarearchitekten einstellen, der die Spezifikationen schreibt, und zehn Entwickler in Indien, die sich um 100 Agenten kümmern
Im Gegensatz zu Remote-Entwicklern besteht das Problem bei Outsourcing darin, dass man, damit es wirklich funktioniert, einen wirklich hervorragenden Manager und technischen Leiter braucht.
Meiner Erfahrung nach muss man für effektive Ergebnisse sehr detaillierte Designdokumente und Arbeitsspezifikationen schreiben. In der Regel müssen sie so detailliert sein wie ein effektiver Prompt.
Wenn man bereits Spezifikationen in diesem Detailgrad geschrieben hat, warum braucht man dann überhaupt Outsourcing-Entwickler und ein Frontier-Modell?
- Das Interessante ist, dass die Probleme des Outsourcings dieselben sind wie die Probleme von AI und dass das alles an die frühen 2000er erinnert. Unternehmen staunen darüber, wie viel Geld sie sparen können, ohne zu merken, welchen Schaden sie ihren Produkten zufügen.
  Unternehmen mit starken Produkt-/Projektleitern, die sehr sorgfältig überwachen, könnten eine neue Generation von Entwicklern hervorbringen, aber manche Unternehmen werden dem Marketing glauben und scheitern, während ihre Software unwartbar wird.
  Ich denke, dass es auch in 10 Jahren ungefähr so viele Entwickler geben wird wie heute und dass sie mehr Produkte bauen werden. AI wird für die Automatisierung sinnvoll abgegrenzter Bereiche eingesetzt werden, aber der Großteil der Softwareentwicklung wird auf einem höheren Abstraktionsniveau stattfinden, das dieselben Konzepte mit weniger Textmüll ausdrückt.
  Der Kern von Code wird sich stärker darauf konzentrieren, die Komplexität seltsamer Grenzfälle konkret zu kodieren und sichtbar zu machen.
  Als ich mit der Softwareentwicklung anfing, arbeitete ich an einem extrem chaotischen MUD, das durch viele Hände gegangen war. Es ist schwer vorstellbar, wer bereitwillig einen von AI ohne strenge Aufsicht und Korrekturen erzeugten Haufen Schlamm und Spaghetti-Code durchwühlen möchte.
  Im Kern ging es bei Softwareentwicklung immer um Problemlösung, genauer gesagt um Problemerkennung. Mit der Zeit haben wir immer mehr Nebensächliches entfernt, um uns auf genau diesen Punkt zu konzentrieren. Dieser Trend wird weitergehen, sich zu kompakteren und abstrakteren Sprachen zur Problemformulierung entwickeln, und knifflige Logikflüsse, Treiberteile und Mathematik werden stärker in Bibliotheken und Tools isoliert.
- Das gesamte Geschäftsmodell von „Outsourcing“-Entwicklern oder -Firmen besteht darin, Menschen zu überteuern abzurechnen. Sie sagen: „Vier Ingenieure wurden dem Projekt zugewiesen“, aber diese vier arbeiten gleichzeitig noch an fünf anderen Projekten.
  Selbst wenn die Ingenieure kooperativ sind, scheuen die Manager oder Inhaber enge Zusammenarbeit und erzwingen eine distanzierte Arbeitsweise. Zum Beispiel ein Anruf pro Woche.
  Ich habe das selbst erlebt. Einmal wurden £300k für ein ausgelagertes Entwicklungsteam ausgegeben, glücklicherweise nicht mein Geld, und am Ende wurde nichts geliefert. Die meiste Zeit ging einfach dafür drauf, die Arbeitsrichtung abzustimmen.
  Mein Partner und ich wussten einigermaßen, was wir wollten, und versuchten, uns häufiger abzustimmen, um die Anstrengungen zu synchronisieren, aber deren Manager blockierten das ständig. Das ist das Consulting-Geschäftsmodell.
  Bei fest angestellten Remote-Mitarbeitern sind die Anreize genau umgekehrt. Sie sind buchstäblich Vollzeitangestellte, es gibt keine Managementschicht, die die Kommunikation behindert, und solange sie nicht faul oder Betrüger sind, wollen sie interessante Probleme lösen und nicht untätig herumsitzen.
- Outsourcing liefert im Großen und Ganzen genau das zurück, wofür man bezahlt. In gewisser Weise ist es transparenter als andere Modelle. Nur kommt diese Transparenz, also der Preis von Qualität, manchmal nicht von der entscheidenden Führungsebene oder Einkaufsorganisation bis zu dem Team durch, das die verteilte Arbeit tatsächlich leisten muss.
  Ich denke, genau dort liegt auch die verfehlte Annahme des Originaltexts. Der Unterschied zwischen DeepSeek und Frontier-Modellen ist normalerweise nichts, das man mit minderwertigem Outsourcing überbrücken kann. Am Ende zahlt man doch für sehr erfahrene Outsourcing-Ingenieure, und die sind möglicherweise gar nicht so billig. Outsourcing geschieht ohnehin nicht nur wegen der Kosten, sondern auch wegen Kompetenz und Kapazität.
- Ich denke genau in diese Richtung.
  Man muss alles bis zu einem angemessenen Detaillierungsgrad spezifizieren, und an diesem Punkt stehen die Chancen gut, dass ein LLM es ebenfalls ziemlich gut hinbekommt. Außerdem bauen viele Outsourcing-Teams auf eine völlig andere Weise als interne Teams, und der Unterschied bei Lieferqualität und Tempo ist enorm.
  Da sich gerade alles so schnell verändert, frage ich mich auch, warum ich meine Zeit und mein Geld dafür aufwenden sollte, die Mitarbeiter anderer Leute auf den neuesten Stand zu bringen.
- Mein Problem war einfach mangelndes Ownership. Wenn es keine kleine, fokussierte Outsourcing-Firma ist, ist es für das Unternehmen schlicht einfacher, etwas einfach rauszuschicken, unabhängig von Qualität oder Wartbarkeit. Natürlich ist meine persönliche Stichprobe klein.
Ich habe einen Freund, der Führungskraft in einem amerikanischen Softwareunternehmen ist, und er bereitet sich darauf vor, einige Teams von Programmierern in osteuropäischen Niederlassungen zu entlassen und sie durch eine kleine Zahl amerikanischer Programmierer und AI zu ersetzen. Das sei deutlich produktiver, und neue Funktionen würden viel schneller gebaut.
- Das klingt plausibler. Mein Engpass verschiebt sich gerade von Code-Verständnis zu Nutzerverständnis. Letzteres zu validieren kann auch jemand tun, der kein Programmierer ist.
- Eine interessante Umkehrung.
  Auf die Fertigungsindustrie übertragen heißt das: Eine Robotik-zuerst-Strategie sollte nicht nur darauf abzielen, die Fertigung ins Inland zurückzuholen, sondern höher zielen. Nämlich selbst zu einem neuen ausgelagerten Fertigungsstandort zu werden.
- Wie lange wird es dauern, bis er in die Realität zurückgeholt wird und die Agenten massenhaft entlässt? :-)
- Beim Outsourcing hat der Text recht, aber meiner Ansicht nach nicht wegen billiger Offshore-Auftragnehmer. Gute Fachleute werden unabhängiger arbeiten und dank AI mehr Kunden betreuen können.
  Deshalb könnten kleine und mittlere Unternehmen künftig nicht mehr so viele interne Ingenieure, Finanz- und Marketingkräfte brauchen wie heute.
Die Zukunft amerikanischer Frontier-AI besteht nicht aus API-Aufrufen, sondern daraus, Arbeit zu OAI/Anthropic zu bringen wie zu Beratern oder externen Dienstleistern und produktähnliche Ergebnisse zu erhalten, ohne die Zwischenarbeit in großem Umfang zu sehen.
Das ist unvermeidlich durch die Kombination aus Destillationsbedrohung und dem Entwicklungsaufwand für proprietäre Ausführungsumgebungen, die nötig sind, um Frontier-Performance maximal auszureizen.
OAI/Anthropic werden versuchen, 100 % aller Jobs wegzunehmen und die „Arbeit“ zu besitzen. Hier ist die chinesische Seite die gute Seite.
- Nein. Projekte über die Mauer zu werfen endet fast immer in einer Katastrophe. Anforderungen sind nie ausreichend klar.
- Ich hoffe, dass so etwas funktioniert. Das erinnert mich an die Inspiration hinter deklarativen Programmiersprachen wie Prolog: Man deklariert das Problem so, dass die Maschine es lösen kann, im Gegensatz zum imperativen Ansatz, bei dem man der Maschine sagt, was sie tun soll.
  Was sie dabei nicht begreifen, ist, dass das Definieren schwieriger ist als die Lösung selbst.
Ich habe wirklich sehr viel versucht, um lokale Modelle irgendwie nutzbar zu machen. Ich habe verschiedene Laufzeitumgebungen, Tools, Skills und Prompts ausprobiert.
Aber wenn man Claude Code und Anthropic-Modelle oder Codex und GPT 5.5 mit Qwen, GLM und Gemma in vergleichbaren Laufzeitumgebungen vergleicht, sind die State-of-the-Art-Modelle überwältigend überlegen. Inzwischen verstehe ich den Sinn von Nicht-Spitzenmodellen nicht mehr. Die vergeudete Zeit ist größer als die eingesparte Zeit
- Bei agentischem Coding stimme ich zu 100 % zu. Bei groß angelegter Entwicklung sind lokale Modelle schlechter, langsamer und teurer.
  Für eng begrenzte Coding-Aufgaben, zum Beispiel das Schreiben einer bestimmten Funktion, geht es zwar langsam, aber es ist machbar. Für gewöhnliche LLM-Chat-Nutzung auf gehobener Consumer-Hardware sind sie, abgesehen von den Kosten, aber durchaus konkurrenzfähig.
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Lokale Modelle liegen gegenüber den neuesten State-of-the-Art-Modellen 3–6 Monate zurück, haben aber den großen Vorteil, dass man nicht das gesamte geistige Eigentum an dubiose Dritte schicken muss.
  Wenn die Inferenzkosten weiter sinken, wie schon in den letzten Jahren, wird man gegen Ende dieses Jahres die heutigen Spitzenmodelle auf einem Laptop laufen lassen können
- Geht mir genauso. Wenn ich Leute höre, die sich daran aufhängen, monatlich 200 $ für einen Codex- oder Claude-Plan auszugeben oder erstattet zu bekommen, ist das frustrierend.
  Für Softwareingenieure ist das praktisch mehr als genug, um es überhaupt auszuschöpfen, und wenn man die Effizienzsteigerung bedenkt, ist es sehr günstig.
  Außerdem: Wenn Claude/Codex schon gut funktioniert und jeden Monat besser wird, wer will dann noch an Laufzeitumgebungen herumspielen oder Agenten-Orchestrierung definieren?
- Ich bin zum gleichen Schluss gekommen. Wenn man die Kosten pro Anfrage betrachtet, ist es immer am billigsten, einfach Opus zu verwenden
- Der Kernpunkt ist, sich nicht freiwillig von Unternehmen abhängig zu machen, deren Interessen nicht mit den eigenen übereinstimmen
Das wahrscheinlichere Szenario ist, dass das untere Ende verschwindet und das obere Ende durch State-of-the-Art-Modelle produktiver wird.
Je schwächer der Entwickler, desto stärker muss die AI sein. Die Prämisse dieses Artikels trägt nicht, weil sie verwechselt, ob schwache Entwickler mit schwacher AI besser seien als starke Entwickler mit beinahe autonomer AI.
Produkte von schwachen Entwicklern mit modernster AI sind schon jetzt schlechter als die von kompetenten Entwicklern mit schwächerer AI von vor zwei Jahren.
Anders gesagt: Starke Entwickler konnten schon vor zwei Jahren mit AI hochwertige Produkte bauen. Mit aktueller AI tun sich schwache Entwickler immer noch schwer, während starke Entwickler mit stärkerer AI noch mehr Arbeit delegieren und ihre Produktivität weiter steigern können
- Es ist selten im Leben, aber ich bin gerade wirklich dankbar, in einem Unternehmen zu arbeiten, in dem ich überwiegend mit fähigen Senior Engineers zusammenarbeite.
  Albtraumhafte Organisationen mit unbetreuten Auftragnehmern oder übermäßig vielen Juniors wären in einer Zeit wie dieser noch viel tödlicher
Ich sehe immer wieder das Narrativ, DeepSeek als Beispiel für Open-Source-LLMs anzuführen, aber dort werden riesige Mengen an Tokens zum Selbstkostenpreis subventioniert. Wenn man nicht faul ist und kritisch nachdenkt, ist leicht zu verstehen, warum.
Besonders in einer Lage, in der Inferenz-Hardware wegen geopolitischer Risiken stark eingeschränkt ist, ist es noch viel zu teuer und ineffizient, lokale AI zu nutzen, die an das Niveau von State-of-the-Art-Modellen heranreicht.
Ich bezweifle auch stark die Behauptung, dass lokale LLMs diese Frontier-Unternehmen langfristig bedrohen könnten.
Tokens werden teurer, weil diese Unternehmen beginnen, den Markt zu beherrschen, und diesen Vorsprung nutzen werden, um die Hardware-Verteilung innerhalb und außerhalb ihrer Grenzen einzuschränken.
Lokale LLMs werden in manchen Workflows wahrscheinlich stärker genutzt werden, aber nicht bei Aufgaben, die das Niveau von State-of-the-Art-Modellen erfordern, und es wird schwer sein, die Preise zu schlagen, mit denen leichtere und kleinere Varianten der Spitzenmodelle den Long Tail abdecken wollen
- Gibt es für die erste Behauptung eine Quelle?
  Mein Eindruck ist, dass DeepSeek v4 speziell für günstige Inferenz entwickelt hat und selbst bei 75 % niedrigeren Preisen keinen Verlust macht
- Auch andere Anbieter auf OpenRouter, die DeepSeek-Modelle anbieten, können sehr niedrige Preise verlangen, daher ist die Aussage, Tokens würden zum Selbstkostenpreis subventioniert, völlig falsch. Diese Anbieter haben gar nicht das Geld, um so etwas zu subventionieren
- Ich glaube nicht. Soweit ich gehört habe, macht DeepSeek bei der Inferenz keinen Verlust
Ich denke, Qualitätserfahrung und persönliche Wertvorstellungen sind wichtiger als Engineering-Kosten. In den letzten Jahren habe ich bei ausgelagerter Arbeit zu viele Abkürzungen gesehen, und AI liebt Abkürzungen ebenfalls sehr. Die Kombination aus beidem ist den Kostenvorteil nicht wert.
Wenn man hochwertige Arbeit und Stolz auf die eigene Arbeit schätzt, sind ausgelagerte Kräfte nicht die Lösung. Im Allgemeinen sind sie gerade deshalb günstiger, weil sie ihrer Arbeit keine sorgfältige Aufmerksamkeit widmen.
Wenn es einem andererseits nur darum geht, irgendwie fertig zu werden und nicht darum, ob es wirklich richtig gemacht wurde, gibt es wohl nichts Besseres, als so wenig Geld wie möglich auszugeben
Im Artikel fehlt ein Aspekt. Gute Engineers verbringen in bestehenden Projekten im Verhältnis zu anderen Aufgaben gar nicht so viel Zeit mit dem eigentlichen Coding. Gute Engineers verstehen das System Ende zu Ende. Offshore-Entwickler sind schlechter als Llama3