AI-Coding zu Hause, ohne Geld wie ein Unternehmen auszugeben

(stephen.bochinski.dev)

5 Punkte von GN⁺ 2026-06-15 | 2 Kommentare | Auf WhatsApp teilen

Die Möglichkeiten, die Kosten für persönliches AI-Coding zu senken, lassen sich in drei Kategorien einteilen: Self-Hosting, das Mieten von Open-Source-Modell-APIs und die Optimierung von Frontier-Abonnements
Beim Self-Hosting kauft man Hardware und betreibt Open-Source-Modelle lokal, wodurch danach keine Kosten pro Token anfallen, aber die Anfangskosten hoch sind und die Modelle, die man zu Hause betreiben kann, schwächer sind als die Modelle der Frontier-Labore
Wenn man Open-Source-Modelle per API-Gebühr mietet, muss man nicht mehrere Tausend Dollar in eine GPU-Konfiguration binden, vermeidet die Arbeit, Leistung aus den Modellen herauszuholen, und kann im nächsten Monat leicht zu einer günstigeren oder besseren Option wechseln
Frontier-Abonnements von OpenAI und Anthropic kosten etwa 400 US-Dollar pro Monat und liefern zum Listenpreis API-Nutzung im Wert von rund 2.800 US-Dollar, aber groß angelegte AI-native Workflows verbrauchen die enthaltenen Tokens schnell
Am besten passt eine Mischstrategie, bei der man Frontier-Abonnements für anspruchsvolles Denken und das Schreiben von Spezifikationen nutzt und Open-Source-APIs für kleine, mechanische Aufgaben einsetzt

Drei Optionen

Es gibt drei Wege, zu Hause AI-Coding zu betreiben, ohne Ausgaben auf Unternehmensniveau, und welche Methode die richtige ist, hängt stark davon ab, wie sehr man den Hardware- und Modellveröffentlichungen der nächsten 12 Monate vertraut
Self-Hosting bedeutet, eigene Hardware zu kaufen und Open-Source-Modelle lokal auszuführen; danach fallen keine Kosten pro Token mehr an
- Die Anfangskosten sind hoch, und die Modelle, die man zu Hause realistisch betreiben kann, sind schwächer als die Modelle der Frontier-Labore
- Kosteneffektiv ist das nur, wenn langsame und günstige Modelle die Hardware mit lang laufenden Aufgaben auslasten können, die über Nacht weiterarbeiten
- Den meisten Menschen fällt es schwer, ihre Heimhardware dauerhaft unter so hoher Last zu halten, und die heute gekaufte Hardware kann in einem Jahr wie eine schlechte Entscheidung aussehen
Open-Source-Modell-APIs mieten bedeutet, dieselben Open-Source-Modelle bei einem Anbieter gegen API-Gebühren zu nutzen, und ist für die meisten Menschen die passende Wahl
- Man muss nicht mehrere Tausend Dollar in eine einzelne GPU-Konfiguration stecken und vermeidet die Arbeit, aus offenen Modellen gute Leistung bei lang laufenden Aufgaben herauszuholen
- Es ist leicht, im nächsten Monat zu einer günstigeren oder besseren Option zu wechseln, ohne Hardware weiterverkaufen zu müssen
- Dienste wie OpenRouter machen den Wechsel fast zu einer Änderung in nur einer Zeile
Frontier-Abonnements optimieren bedeutet, OpenAI- und Anthropic-Abos maximal auszunutzen
- Mit Tarifen von rund 400 US-Dollar pro Monat erhält man zum Listenpreis API-Nutzung im Wert von ungefähr 2.800 US-Dollar, was bis zum Erreichen des Limits einen großen Rabatt bedeutet
- Die Tarife messen die Nutzung, und groß angelegte AI-native Workflows verbrauchen die enthaltenen Tokens schnell
- Für direkt vom Menschen gesteuerte Arbeit ist das gut geeignet, als Engine für Agents, die den ganzen Tag laufen, reicht es aber nicht aus

Die am besten funktionierende Kombination

Die am besten funktionierende Methode ist eine Kombination aus Frontier-Abonnements und Open-Source-Modell-APIs
Einige Frontier-Abonnements bleiben für anspruchsvolles Denken und das Schreiben von Spezifikationen erhalten, während kleine mechanische Aufgaben über Open-Source-Modell-APIs abgerechnet werden
Mit spezifikationsgetriebener Entwicklung entsteht eine Struktur, in der teure Modelle den Plan erstellen und günstige Modelle diesen Plan ausfüllen
Wenn man diesen Ansatz gut umsetzt, kann ein Team von 20 Ingenieuren die Monatsleistung für etwa 1.000 US-Dollar erzeugen

2 Kommentare

pencil6962 2026-06-19

Realistisch gesehen reicht es, einfach ein günstiges Modell zu abonnieren. Das ist wohl eine ähnliche Aussage wie im Artikel.

GN⁺ 2026-06-15

Hacker-News-Kommentare

Ich habe das Gefühl, an einen Stillstandspunkt gekommen zu sein, und weiß nicht, wie ich die nächste Stufe erreichen soll. Im Moment nutze ich im Codex-Plan für 100 $/Monat durchgehend 5.5-xhigh, und das scheint auszureichen.
Ich überlege mir den nächsten Schritt, konkretisiere die Anforderungen im Chat bis kurz vor die Implementierung, und wenn Codex die Arbeit auf Commit-Ebene erledigt, prüfe ich sie kurz auf dem lokalen Entwicklungsserver. Falls nötig, bitte ich um Anpassungen, lasse dann committen und mir auf Basis der Spezifikation den nächsten Schritt empfehlen. Ohnehin muss ich gelegentlich Anfragen außerhalb der Sandbox „genehmigen“
Ich habe noch keine Aufgabe gefunden, die es wert wäre, über Nacht zu laufen. Ich könnte zwar einen großen Plan auf einmal anstoßen, aber oft möchte ich Zwischenergebnisse doch etwas anders haben, daher fühlt es sich wie Verschwendung an
Als Nächstes sollte ich mir wohl eine Art Maschinen-VM ansehen, die Codex-GUI-Anfragen tunneln kann. Ich möchte meinem gesamten Mac keinen „gefährlichen“ Zugriff geben
Ich verstehe nicht, was Leute bei Side Projects machen, dass sie Token so schnell verbrennen und zwei Abos zu je 200 $ im Monat plus zusätzliche Token-Gebühren brauchen
- Das liegt daran, dass du das Problem wie ein Ingenieur behandelst und nicht wie ein „Influencer“ oder „10x-Entwickler“. Du siehst es als ein Problem, das mit Engineering zu lösen ist, und AI nur als Werkzeug. Meiner Erfahrung nach gibt es für Ingenieure kaum Probleme, die stundenlange unbeaufsichtigte AI-Codegenerierung erfordern
  Ich habe nur einen einzigen Fall gefunden, in dem es auch nur ansatzweise sinnvoll ist, AI stundenlang weiterarbeiten zu lassen. Ich betreibe Reverse Engineering an einem Widget mit fünf Firmware-Images, habe die Binärdateien gedumpt und die AI die miteinander verflochtenen Firmware-Projekte dekompilieren und rückentwickeln lassen. Das ist komplex, aber der Umfang der Aufgabe ist sehr klar definiert. Es ist weniger schwierig als einfach sehr viel Arbeit, und das Ergebnis ist nur ein informativer Haufen Text, der wie C aussieht, aber nicht direkt kompilierbar ist. Die Qualität der Ausgabe hängt stark von der Eingabe-Assembly ab, und das Gesamtergebnis ist Dokumentation in Codeform
  Das Risiko ist null, deshalb habe ich kein Problem damit, die AI das unbeaufsichtigt nach Belieben abarbeiten zu lassen. Trotzdem ist es für mich viel leichter zu lesen und nachzuvollziehen, wenn die AI die Assembly in die Form eines C-Projekts bringt, das ich erkennen kann. Ich halte das für einen einfachen Gewinn
- Ich habe etliche Videos von Nichtfachleuten gesehen, die mit AI irgendetwas bauen, und die Leute, die 12-Stunden-Jobs verheizen, lesen die Ausgabe buchstäblich nicht und verstehen nicht einmal, was sie tun
  Direkt nachdem sie darum gebeten haben, ein Programm zu erstellen, fragen sie die AI, wie man es ausführt, sobald es fertig ist. Wenn Bugs auftreten, fragen sie die AI, was schiefgelaufen ist, oder werfen alles weg, wechseln Modell/Harness und versuchen es erneut
  Ein Beispiel: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
  Das ist etwas völlig anderes als der professionelle Workflow, den du beschrieben hast. Eher ein Consumer-Spielzeug
- Ich habe Claude auf den 20-$-Monatsplan heruntergestuft und nutze es inzwischen fast nur noch für Web-Chat. Fürs Programmieren verwende ich Claude Code mit DeepSeek im API-Abrechnungsmodell
  Für 320.000.000 Token habe ich etwa 4,8 $ ausgegeben. Als ich noch den Claude-Plan nutzte, hatte ich den Druck, dass der LLM ständig irgendetwas tun musste, damit sich der Preis rechtfertigt. Seit dem Wechsel zu DeepSeek denke ich nicht mehr so. Ich habe kein schlechtes Gewissen, wenn ich kein Abo nutze, und ich mache mir auch keine Sorgen um Limits. Ich zahle einfach mehr, wenn nötig. Gerade weil es keine stündlichen Beschränkungen gibt, merkt man den Unterschied bei paralleler Ausführung deutlich
- „Darüber nachdenken, was als Nächstes zu tun ist“ ist der echte Engpass, den jeder entdeckt, der tatsächlich Arbeit erledigen will. Wenn das System mit meinem Denktakt mithalten kann, läuft es gut
  Zusätzliche Token zu kaufen führt nicht dazu, dass die Denkfähigkeit ein „Level-up“ bekommt. Wer stärker automatisierte Abläufe laufen lässt, rast wahrscheinlich den eigenen Gedanken voraus, und das wird ihn am Ende ausbremsen
- Mit dem 200-$-Codex-Abo entwickle ich aus Spaß und Neugier Spiele für Kinder. Ich bin Entwickler und habe zwar Spiele gespielt, aber nie Spieleentwicklung gemacht. Es gibt auch Jobs, die über Nacht laufen, aber meistens geht es darum, „meine 3D-Asset-Pipeline zu betreuen und Zeit darauf zu verwenden, etwas hinzuzufügen“
  Auf einer RTX 5090 lasse ich Trellis2 -> ultrashapes -> Trellis2 -> Rigging-Verknüpfung und Animations-Setup laufen
  Allerdings besteht 99 % dieser Arbeit darin, dass Codex auf Ausgaben wartet. Selbst wenn es 12 Stunden läuft, bedeutet das meist nur, viele sleep-Phasen einzustellen. Mir sind nie die Token ausgegangen. Mit dem 100-$-Codex-Abo bin ich nach etwa drei Tagen an das Wochenlimit gestoßen, weil ich 10 Agenten gleichzeitig laufen ließ und die Asset-Pipeline wie verrückt programmieren ließ. Der 200-$-Monatsplan hat die vierfache Menge an Credits, deshalb bin ich dort noch nie an die Wand gefahren und kann es einfach laufen lassen
„Der Anfang ist Self-Hosting. Man kauft sich eine Maschine und lässt Open-Source-Modelle lokal laufen, dann zahlt man danach keine Kosten mehr pro Token“, aber Stromkosten sind nicht gratis
Meiner Ansicht nach zahlt man am Ende einfach eine Prämie für Privatsphäre, und für mich ist es das wert
- Ich brauchte ohnehin gerade einen neuen Laptop und habe einem Freund einen gebrauchten M1 Max ziemlich günstig abgekauft, der schnell genug war, um andere Dinge, die mich interessieren, erneut zu kompilieren
  In meinem Fall gab es also keine zusätzlichen Hardwarekosten, weil es ein Ersatzkauf war
  Dass ich auf diesem Gerät zu Hause AI-Modelle laufen lasse, mache ich, weil ich es will, und wenn es nötig ist, werde ich OpenRouter nutzen
  Ich erkenne an, dass die Wirtschaftlichkeitsrechnung in diesem Artikel stimmt. Aber das Ergebnis, dass wir zu Leuten werden, die Maschinen am Laufen halten, um das zu tun, was wir einmal geliebt haben, fühlt sich einfach zu traurig an. Langfristig könnte es sinnvoll sein, über solche feinen Unterschiede nachzudenken
  Der Fehler, den ich in meinem Leben gemacht habe — ich bin inzwischen etwas älter, also ist das realistisch kaum noch zu korrigieren — war zu glauben, dass anhaltende Erfüllung in der Arbeit das Fehlen anderer persönlicher Erfüllung ausgleichen könne. Ich habe es immer genossen, Menschen direkt durch etwas zu helfen, das ich mag und gut kann, und das hat die Traurigkeit darüber abgefedert, dass ein traditionelles Familienleben für mich schwer aufzubauen ist
  Ich dachte immer, ich würde diese Freude auf neue Weise wiederfinden können, aber wenn das Pendel nicht wieder stärker in Richtung menschlicher Anstrengung zurückschwingt, wird selbst die kleine Freude, solche Dinge auf meine Weise mit meinem eigenen Gerät zu erkunden, nicht genug sein
  Die Welt, die wir uns selbst gebaut haben, ist düster. In letzter Zeit habe ich Angst davor, darin noch älter zu werden
- Ich denke, bei Karten der aktuellen Generation kann man mit mindestens 5 Jahren Lebensdauer rechnen. Selbst eine 3090 ist wegen der 24 GB RAM noch immer brauchbar, weil der begrenzende Faktor beim Home-Machine-Learning über Jahre hinweg genau der Speicher war
  Eine 6000 würde zwar 7.000 bis 8.000 Dollar kosten, hätte aber wahrscheinlich einen ziemlich guten Wiederverkaufswert. Selbst eine 3090 liegt noch bei über 50 % des UVP. Auch wenn man keine LLMs macht, ist das für das Training „traditioneller“ Vision-Modelle mit Convolutional Neural Networks ein interessantes Value Proposition. Mit 96 GB kann man riesige Batch-Größen fahren. Der größte Grund für ein Upgrade ist, dass sich die Leistung pro Watt fast verdoppelt hat. Zum Beispiel liegt die 4000 Pro Blackwell bei ähnlicher Leistung ungefähr bei der Hälfte einer 3090
  Menschen neigen dazu anzunehmen, dass CapEx einfach verschwindet, aber wie man beim RAM gesehen hat, sollte man sich nicht zu sicher sein, dass sich Dinge bei Bedarf nicht doch wieder verkaufen lassen
- Mit Solarstrom kann es faktisch bis zu einem gewissen Grad fast gratis sein. Dann wäre private AI-Rechenleistung tagsüber tatsächlich gewissermaßen billiger
- Mehr Geld für Hardware auszugeben, ist ebenfalls ein zusätzlicher Kostenfaktor
  Ich habe es durchgerechnet, und abgesehen von der Privatsphäre ergab es keinen Sinn. Trotzdem habe ich es gemacht. [0]
  0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Zu „Strom ist nicht gratis“ gibt es ein interessantes Gedankenexperiment. Wenn die AI etwas an einem Tag erstellt, wofür ich den ganzen Tag brauchen würde, welche Seite verbraucht dann mehr Strom?
  Wo liegt rein aus Sicht des Energieverbrauchs der Break-even-Punkt?
Ich habe absolut keine Ahnung, wie die Leute so viel Geld ausgeben.
Ich habe den Cursor-Plan für 60 $/Monat im Auto-Modus genutzt, und selbst wenn ich vier Abende pro Woche komplett mit Planen und Coden verbringe, bin ich nie auch nur in die Nähe des enthaltenen Nutzungslimits gekommen.
Was machen sie bitte anders, dass die Kosten so hoch werden?
Nutzen sie bedarfsabhängige Nutzung oder andere Bezahlmodelle oder schalten höhere Modi ein? Ich verstehe nicht, warum das nötig sein sollte. Bei den Aufgaben, an denen ich arbeite, ist die Auto-Ausgabe wahnsinnig gut, und ich bin noch nie auf ein Problem gestoßen, das sie nicht ausreichend gut lösen konnte.
Bei Interviews für neue Teammitglieder sagen Bewerber, dass sie in ihrem aktuellen Job 2.000 $ pro Monat für Tokens ausgeben. Ich kann mir beim besten Willen nicht vorstellen, was da passieren muss, damit man auf so etwas kommt.
- Der Claude-Enterprise-Plan ist 30- bis 40-mal teurer als der Consumer-Plan.
  In einem kleinen Startup haben wir 200 $ pro Monat für den Max-Plan ausgegeben. Jetzt zahlen wir bei gleicher Nutzung im Claude-Enterprise-Tarif mehrere tausend Dollar pro Monat.
  Anthropic subventioniert also die Consumer-Nutzung und verlangt Unternehmen für Zero Data Retention (ZDR) eine ziemlich ordentliche Marge.
- Wenn man Agenten breite Zugriffsrechte und effektive Feedback-Loops geben kann, muss ich nur noch die Richtung vorgeben und am Ende das Ergebnis prüfen.
  Zum Beispiel kann ich einem Agenten, der Zugriff auf Browser, Logs, Metriken, GitHub und CI-Logs hat, sagen, dass er ein neues Feature implementieren soll.
  Wenn in Slack ein paar Bug-Reports auftauchen, starte ich noch ein paar Agenten. Wenn der PM Änderungen am UI will, starte ich einen Agenten. Vieles von dem, was Entwickler tun, ist nicht zwingend kompliziert; ich prüfe einfach den finalen PR und hinterlasse Kommentare, so wie bei einem Kollegen. Dann geht mein Agent los, arbeitet die Kommentare ein und fordert eine neue Review an.
  In der Zwischenzeit kann ich meine tatsächliche Aufmerksamkeit auf gewichtigere Features, Design-Dokumente, Datenanalyse und Ähnliches richten.
  Privat gebe ich 300 $ pro Monat aus, beruflich mehrere tausend. Agenten können die Produktivität wirklich verändern, und der Gegenwert rechtfertigt die Kosten völlig.
  Aus Sicht eines Unternehmens ist die Frage: ein paar tausend Dollar pro Monat zahlen oder einen weiteren Engineer einstellen, der all-in gerechnet Hunderttausende pro Jahr kostet. Für mich ist es aktuell zumindest ein 2x-Multiplikator.
- Vielleicht wollen diese Leute auch einfach mit verrückten Prompt-Skills angeben. So nach dem Motto: Welcher Ingenieur mit Selbstachtung würde sich schon mit weniger als 2.000 $ pro Monat sehen lassen?
  Wenn man sich den Kontext der Interaktion mit solchen Leuten anschaut, ist das wahrscheinlich die einfachste Antwort auf eine ziemlich irritierende Frage. Es erscheint mir nicht einmal plausibel, 2.000 $ pro Monat auszugeben, außer man verschwendet absichtlich Credits.
- Stimme zu. Allerdings reden ziemlich viele von ihnen auch ständig über ihre benutzerdefinierten Anweisungen/Regeln/Skills/Funktionen. Damit fressen sie schon vor dem eigentlichen Start einen großen Teil des Kontextfensters auf.
  Wenn ich AI nutze, verwende ich einfach das reine Tool selbst, und der Kontext ist genau der Code, an dem ich gerade arbeite. Ich will sehen, ob es bei einem bestimmten Problem hilft; den Rest der Codebasis verstehe ich gut genug, um beurteilen zu können, ob eine Antwort gut oder schlecht ist.
- Da gibt es mehrere Faktoren. 1) Wenn der Prompt nicht präzise genug ist und den Scope nicht eingrenzt, arbeitet sich der Agent durch die gesamte Codebasis, schaut sich dieselben Stellen immer wieder an und fährt sich irgendwann fest. 2) Meistens ist es okay, die Ausgabe nicht zu prüfen, aber manchmal versteht er etwas nicht und produziert Müll; wenn man den Code nicht selbst liest, um das Problem zu erkennen, kommt man nur mit Prompting nicht mehr raus. Wenn man ihn einfach laufen lässt, verbrennt er Tokens.
  Schon Dinge auf niedrigem Niveau bringen Agenten ins Straucheln. Gerade eben wollte einer eine Fehlermeldung nicht richtig lesen, dass eine Funktion einen boolschen Rückgabewert verlangt, und hat stattdessen zehn Varianten desselben ausprobiert, bis ich abgebrochen habe. Auch Skills können Probleme verursachen. Wenn man ihm zum Beispiel Rechte gibt, liest er unglaublich gern den Source Code der Bibliotheken, die ich verwende. Das ist ein Kaninchenbau.
Wenn die Aussage lautet: „Die Anfangskosten sind hoch, und Modelle, die man zu Hause tatsächlich betreiben kann, sind schwächer als die von den führenden Labs; deshalb lohnt es sich nur, wenn man die Hardware mit lang laufenden Aufgaben auslasten kann, bei denen langsame und günstige Modelle die ganze Nacht durchrechnen. Die meisten können ihre Heimmaschine nicht dauerhaft so belasten, und die heute gekaufte Hardware kann in einem Jahr wie eine schlechte Wette aussehen“, dann ist das kein Artikel über AI Coding zu Hause, sondern über Vibe Coding zu Hause.
Ich stimme diesem Artikel in vielem nicht zu. Ich schreibe diesen Kommentar gerade an einem Heimcomputer ohne GPU mit 64 GB RAM und mache eine Menge AI Coding für sehr wenig Geld.
Ich lasse mit Ollama Gemma 4 26b (Mixture of Experts) und Qwen 3 coder laufen. Dazu nutze ich GitHub Copilot für Code-Completion und auch die Free-Tiers der Gemini- und Mistral-APIs. Ich habe auch einen bezahlten Gemini-API-Account, aber inzwischen ist das Prepaid, also muss ich mir keine Sorgen mehr machen, aus Versehen eine Rechnung über 1.000 $ zu bekommen. Mit Gemini Flash Lite 3.1 kann man ebenfalls ziemlich viel machen.
Nichts davon verbrennt Tokens, um teure Spaghetti-Code-Klumpen zu erzeugen, aber es zählt ganz eindeutig als AI Coding.
- Geht mir genauso. Ich nutze Qwen 3.6 35B A3B auf einer Maschine mit 64 GB RAM und einer 24-GB-5090. Ich hatte Glück und habe noch etwa 15 Sekunden bevor die Leute idiotischerweise ihre Computer für die nächsten drei Jahre vorbestellt und alles ruiniert haben, ein Alienware 16 Area51 gekauft.
  Für „Slop-Cannon“-Vibe-Coding taugt das nicht, aber es geht hier um meinen persönlichen Code, und ich will gerade nicht vibe-coden, weil ich nicht möchte, dass alles zu Spaghetti wird. Was ich will, ist, dass mir jemand Stack-Overflow- und Reddit-Posts direkt im Chatfenster zusammensucht, mir den physischen Schmerz erspart, TypeScript-Code tatsächlich tippen zu müssen, und mir das endlose Herumdebuggen bei obskuren Docker-Problemen reduziert. Ich bin Backend-Entwickler, habe null Geduld für Frontend und mag Docker zwar, aber nicht seine nervigen Probleme und endlosen Eigenheiten. Darin ist dieses Modell sehr gut.
- Es gibt definitiv Aufgaben, die man eine Zeit lang einfach durchlaufen lassen kann. Die Grenze zwischen Vibe Coding und Coding-Routinen mit menschlicher Beteiligung wird mit besser validierten Workflows sowie klügeren und günstigeren Modellen immer unschärfer werden, denke ich.
  Die meisten der besten Engineers, die ich kenne, sind dieses Jahr sehr viel stärker in Richtung Vibe Coding gewechselt. Inzwischen ist deutlich mehr möglich.
Es ist schon ausreichend zufriedenstellend, die DeepSeek-Plattform-API direkt zu nutzen und das V4-Flash-Modell an ein Harness wie Opencode anzubinden. In den letzten Wochen habe ich wahrscheinlich nur etwa $10 ausgegeben.
Self-Hosting-Modelle habe ich mir auch angesehen, aber die Hardware ist im Moment einfach zu teuer.
- Wenn man Opencode Go nutzt, aber nur DeepSeek Flash, hält es vermutlich länger. Nach Tokens entspricht es zwar etwa $65, aber da monatlich abgerechnet wird, muss man alles verbrauchen; bei geringer Nutzung ist ein direkter Aufruf von DeepSeek daher günstiger.
  Im ersten Monat kostet es $5, danach $10, und man kann jederzeit kündigen. Mit neuen E-Mail-Adressen kann man wohl auch weiter Rabatte bekommen.
- Heißt das, direkt bei DeepSeek? Soweit ich es verstanden habe, habe ich es zwar nicht überprüft, aber andere KI-Anbieter haben einige DeepSeek-Modelle zu niedrigeren Preisen angeboten.
  Trotzdem interessant. Was bekommt man zu diesem Preis? Nur Coding, oder ist zum Beispiel auch Bildgenerierung enthalten?
Was machen die Leute eigentlich zu Hause? Ich programmiere mit dem $20-Claude-Monatsplan ungefähr 5 Apps, und natürlich kann ich in Rate Limits laufen, aber ich habe keine Ahnung, was man tun muss, um $3k an Tokens zu verbrennen.
- Kommt auf den Fall an, aber Automatisierung frisst selbst $100-$200-Monatspläne schnell auf und verbrennt allein an Tokens Tausende von Dollar.
  Da gibt es stündliche Root-Cause-Analysen für Customer-Support-Probleme, tägliche Automatisierungen wie Log-Analysen sowie wöchentliche/monatliche Automatisierungen für KPI-Tracking und -Umsetzung.
  Als ich Side Projects gebaut habe, war 1) der Umfang ziemlich gut definiert und 2) es gab weder Nutzer noch Automatisierungsbedarf, deshalb war es viel leichter, innerhalb des Limits eines $20-Monatsplans zu bleiben. Jetzt stoße ich oft an das Wochenlimit und brauche mehrere Max-Pläne.
- Bei mir genauso. $20 im Monat reichen aus, und ich nutze es jeden Tag zum Coden.
  Die Leute, die Tokens verbrennen, verwenden anscheinend Setups mit mehreren Sub-Agenten, 50 geladenen Skills und 40 MCP-Tools. Solche Dinge füllen bei jedem Turn den Kontext.
- Bei mir ähnlich, aber ich denke noch ziemlich viel selbst nach und nutze KI nur, um langweilige Aufgaben zu beschleunigen, die ich nicht selbst machen will; vermutlich stoße ich deshalb seltener ans Limit.
  Gerade für persönliche Projekte zu Hause war das großartig. Nachdem ich den ganzen Tag langweilige Firmenarbeit gemacht habe, habe ich viel mehr Lust, an Side Projects zu arbeiten, wenn ich mich nicht auch noch um die repetitiven Aufgaben kümmern muss.
  Die meisten Leute, die zu Hause Tokens im Wert von Tausenden von Dollar verbrennen, bauen wahrscheinlich nur einen großen Slop-Haufen.
- Die kurze Antwort auf „Was muss man tun, um $3k an Tokens zu verbrennen?“ lautet: Slop produzieren.
  Die meiste Programmierung geht schnell mit Tastatur, IntelliSense und ein paar Templates zur Codegenerierung.
  Aber die Leute sind inzwischen davon abhängig geworden, dass KI alles für sie erledigt, und jetzt fangen die Tech-Bros an, sie wie Drogendealer auszuquetschen.
Vor ein paar Monaten habe ich ungefähr $4.000 in einen NVIDIA DGX Spark investiert. Er hat 128 GB Unified RAM und einen NVIDIA-GB10-Chip.
Dank RAM, mehreren CPU-Kernen und einer 4-TB-NVMe-SSD ist das auch ohne GPU ein ziemlich leistungsfähiger ARM64-Linux-Rechner, und bisher nutze ich ihn hauptsächlich so. Mich würde aber interessieren, welches Modell auf dieser Hardware am besten läuft, besonders fürs Coding.
- Ich recherchiere und teste gerade für einen Spark-Artikel, den ich für Ars schreibe, und bin dabei zufällig bei einer 2-LLM-Agenten-Konfiguration gelandet, die Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4) als Planungsagenten und die FP8-Version von Qwen3-Coder-30B-A3B-Instruct (Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) als Coding-Agenten nutzt.
  Als Inference Engine bleibe ich bei vLLM und habe mit Opencode eine 2-Agenten-Schleife darum herum gebaut.
  Der Qwen3.6-35B-A3B-Planer läuft ordentlich mit etwa 50-55 Tokens pro Sekunde, und der Qwen3-Coder-30B-A3B-Instruct-Coder kommt auf etwa 30-35 Tokens. Wenn beide Agenten laufen und im Leerlauf auf Arbeit warten, liegt die RAM-Nutzung bei etwa 112 GB von 128 GB.
  Ziemlich ordentlich. Ich bastle gerade damit herum, MS-DOS-Spiele aus den 1980ern zu disassemblieren, und dafür passt dieses Setup gut. Es ist nicht das Schnellste der Welt, aber wenn man dem Planer ein Kontextfenster von 256k Tokens und dem Coding-Agenten 128k gibt, können sie sich selbst ziemlich lange Aufgabenlisten hin- und herschieben und ohne Beschwerden durcharbeiten. Das einzige echte Problem ist, dass der Coding-Agent halluziniert, als hätte er LSD genommen, selbst wenn man die Prompts sehr eng hält. Der Planungsagent scheint die Halluzinationen aber gut zu erkennen, zerlegt die Aufgabe erneut und gibt sie an den Coder zurück.
  Ziemlich cool. Ich werde wohl traurig sein, wenn ich das Testgerät in ein paar Monaten zurückgeben muss.
  Zusätzlich habe ich mit Antirez' Setup(https://github.com/antirez/ds4) auch Deepseek v4 Flash ausprobiert; das ist ziemlich hervorragend und auch wirklich einfach auszuführen. Auf dem Spark ist es mit etwa 14 Tokens pro Sekunde allerdings ziemlich langsam. Und sofern man nicht zwei Sparks hat, wird man ohnehin immer nur dieses eine Modell gleichzeitig laufen lassen. Es frisst den gesamten RAM.
- https://www.canirun.ai/?status=tight könnte diese Frage beantworten.
- Deepseek v4 flash ist für seine Größe erstaunlich stark, und es heißt, dass es auch auf dieser Hardware gut läuft.
- Wenn man das noch nicht weiß und trotzdem sagt, man „nutzt es hauptsächlich so“, dann sollte der Artikel wohl mit „Vor ein paar Monaten habe ich $4k für ein Spielzeug verpulvert“ anfangen.
- DeepSeek V4 Flash ist ein sehr fähiges Coding-Modell, das auf der beschriebenen Hardware gut läuft. Man muss nur eine Version finden, die speziell für den lokalen Einsatz optimiert ist.
Für mich wirkt eine Investition in Hardware wie der richtige Weg.
Ich habe vor fast 24 Jahren programmieren gelernt und lerne immer noch ständig Neues. In all der Zeit musste ich mich nie auf ein Abo-Modell verlassen, um Neues zu lernen und Dinge zu bauen.
Wenn LLMs und Agenten zumindest in den nächsten Jahren die grundlegenden Werkzeuge für Coding und Softwareentwicklung werden, dann erscheint eine Investition von 2000–3000 $ in Hardware wie einen Halo Strix PC als naheliegende Entscheidung.
- Ich habe mich gefragt, ob es mit ausrangierter Hardware nicht vielleicht auch eine „kostenlose“ Option geben könnte.
  Ich habe noch eine GTX1080ti von etwa 2018, die ich nicht nutze und die ihren Wert über die Jahre schon mehr als eingebracht hat, also liegen die Hardwarekosten jetzt bei 0.
  Sie betreibt Gemma e4b multimodal, qwen 3.5 8b und das qwen 4b Embedding-Modell gut genug. Das LLM schafft mehr als 40 Token pro Sekunde.
  Unter Last zieht das System 350 W aus der Steckdose, im Sparmodus 3 W und im Idle 80 W. Mein Strompreis liegt bei £0.035 pro kWh und ist damit für Großbritannien recht günstig. Das liegt daran, dass ich die Last über eine Heimbatterie verlagere.
  144k Output-Token kosten ungefähr 1 Penny und dauern theoretisch eine Stunde.
  Selbst mit kostenloser Hardware und einem Strompreis, der etwa 10-mal günstiger ist als ein normaler Stromtarif, ist es nur geringfügig billiger, als das deutlich leistungsfähigere Modell deepseek v4 flash zu nutzen.
- Das stimmt und stimmt zugleich nicht. Hardware hat einen Lock-in-Effekt. Ich bin mit 128 GB Unified Memory zufrieden, bin aber etwas besorgt, weil es jetzt offenbar teurer ist als zu dem Zeitpunkt, als ich es gekauft habe.
  Wenn man die jüngsten Bewegungen des Weißen Hauses gegenüber Anthropic zusammennimmt mit der Realität, dass gute Modelle der nächsten Generation womöglich mehr als 128 GB brauchen, ist das kein besonders gutes Zeichen für die Zukunft.
  Das soll lokal laufende Modelle nicht schlechtreden. Ich nutze sie selbst und habe zusätzlich auch Abos, aber man sollte die Kompromisse nüchtern betrachten.
- Für 3.000 $ bekommt man keine Leistung auf dem Niveau führender Modelle. Wenn man das nicht nur für die GPU ausgibt, sondern auf einen ganzen PC verteilt, bekommt man gerade so brauchbare Leistung.
- Man sollte eher an 10.000 $ denken.
- Ich sehe das ähnlich. Ich nutze eine günstige 16GB-VRAM-Karte, die ich vor etwa einem Jahr gekauft habe, und ich verstehe, dass man für Geld deutlich höhere Token-pro-Sekunde-Raten kaufen kann als zu Hause.
  Aber das wirkt auf mich so, als würde man Produktivität an der Anzahl geschriebener Codezeilen messen. Bei meiner Arbeit habe ich bei keinem Abo das Gefühl, einen Vorteil daraus zu ziehen.
  Klar, ich kann nicht mit einem einzigen Prompt eine komplette langweilige CRUD-App neu erzeugen, aber so ist es eben.
Ich habe angefangen, beim Coding einen Brain -> Worker-Ansatz zu verwenden.
Das Brain ist das teure, kluge Modell aus meinem Claude-Abo. Wenn möglich nutze ich Fable 5, aktuell Opus.
Der Worker ist ein lokales Modell (qwen3.6:46B), deployed auf einer 36-GB-GPU mit Opencode + Ollama.
Das Brain übernimmt Analyse/Design und erstellt Aufgaben. Die Aufgaben müssen einfach und klar sein, damit der Worker sie bearbeiten kann. Der Worker programmiert, das Brain validiert und erstellt bei Bedarf Korrekturaufgaben. Aktuell liegt das Verhältnis von Korrekturen zu Aufgaben bei ungefähr 1:20.
Wenn man keine GPU zu Hause hat, ist qwen3.6 auch in der Cloud ziemlich günstig.
Es ist eher ein experimentelles Setup aus Neugier, aber es funktioniert besser als erwartet. Dadurch kann ich jetzt seit 4 Tagen durchgehend 3 Coding-Agenten laufen lassen. Wie ich zu diesem Setup gekommen bin, habe ich hier beschrieben: https://news.ycombinator.com/item?id=48520757
Kann man inzwischen etwas auf dem Niveau von Opus 4.6 lokal betreiben? Ich höre dazu ständig Widersprüchliches.
Wenn das mit 10.000 $ möglich wäre, würde ich mein Abo kündigen. Das Problem ist nur, dass ich nicht selbst Geld ausgeben möchte, nur um es herauszufinden.
- Wenn man Leistung auf dem Niveau führender Modelle will, ist die wirtschaftlich sinnvolle Option OpenRouter oder ein direktes Abo des gewünschten Spitzenmodells.
  Realistisch betrachtet bietet niemand Endkunden Setups an, mit denen sich auf einer einzelnen Konfiguration so viel VRAM betreiben lässt, weil man die Margen im Rechenzentrum schützen will. Apple konnte das früher einmal, hat es aber eingestellt, und diese Geräte werden jetzt auf eBay für mehr als 20.000 $ pro Stück gehandelt.
  Mit Karten der Serien 3090/4090/5090/6000 kann man zwar sehr leistungsfähige Modelle betreiben. Wenn man aber „Niveau führender Modelle“ will, muss man bei Neuware mit mindestens etwa 22.000 $ rechnen. Gebraucht könnte man die Einstiegskosten deutlich senken und selbst einen Server bauen, aber der Stromverbrauch wäre wahrscheinlich 4- bis 6-mal höher oder mehr.
- Mit 10.000 $ kommt man nicht einmal in die Nähe von Opus oder Sonnet.
  Derzeit ist das für Privatleute schlicht nicht machbar.
- Leider kann man etwas auf dem Niveau von Opus 4.6 lokal noch nicht betreiben. Das Nächste, was man aktuell erreichen kann, liegt ungefähr auf dem Niveau von Sonnet 3.7.
- Ich habe 8.000 $ ausgegeben und etwas erreicht, das in etwa an Sonnet herankommt, aber 2- bis 3-mal langsamer ist. Das Setup betreibt deep seek v4 flash auf zwei Spark-Geräten.
- In einigen Benchmarks liegt Kimi K2.6 innerhalb der Fehlertoleranz von Opus 4.6 und kann auf 8 RTX6000 laufen.
  Derzeit ist es unmöglich, eine solche Maschine von Grund auf für unter 100.000 $ aufzubauen. Aber im Moment ist es auch schwer, Autonomie überhaupt in Geld zu bewerten.