1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Bei den Kosten für lokale Inferenz wirkt sich der Gerätepreis stärker aus als die Stromkosten; für das M5 Max MacBook Pro 64GB wird mit 4.299 $ gerechnet
  • Apple-Silicon-Laptops verbrauchen unter Last 50–100 W; bei 0,20 $ pro kWh liegen die Stromkosten nur bei rund 0,48 $ pro Tag
  • Für Gemma4:31b wurden auf dem M5 Max 10–40 Token pro Sekunde beobachtet, wodurch sich die Kosten pro Million Token auf etwa 0,40–4,79 $ verteilen
  • Gemma4 31b über OpenRouter kostet etwa 0,38–0,50 $ pro Million Token und liegt damit nur unter sehr optimistischen Bedingungen auf dem Niveau eines MacBook Pro Max
  • Lokale Inferenz ist im Allgemeinen teurer und langsamer als OpenRouter; aus buchhalterischer Sicht ist es angemessen, die Pro-Max-Kosten mit etwa dem 3-Fachen pro Million Token anzusetzen

Kostenberechnung für lokale Inferenz

  • Der Strompreis liegt laut einer aktuellen Rechnung aus Northern Virginia bei 0,18 $ pro kWh; für die Berechnung wird konservativ mit 0,20 $ pro kWh angesetzt
  • Der EIA-Durchschnittsstrompreis für US-Haushalte im Jahr 2025 liegt bei 0,1730 $ pro kWh
  • Wenn ein Apple-Silicon-Laptop unter Last 50–100 W verbraucht, ergeben sich Stromkosten von 0,009–0,018 $ pro Stunde, also grob 0,02 $ pro Stunde
  • Selbst bei dauerhaft 100 % Inferenzlast liegen die Stromkosten nur bei rund 0,48 $ pro Tag
  • Das 14-Zoll M5 Max MacBook Pro mit 64 GB kostet laut Apple-Website 4.299 $; 64 GB werden als ausreichend angesetzt, um Modelle wie Gemma 4 31b auszuführen
  • Verteilt man die Hardware-Lebensdauer auf 3, 5 oder 10 Jahre, ergeben sich jährliche Kosten von 1.433 $, 860 $ bzw. 430 $
  • Die Hardwarekosten pro Stunde betragen damit 0,16358 $ bei 3 Jahren, 0,09815 $ bei 5 Jahren und 0,04908 $ bei 10 Jahren
  • Für normale Nutzung ist eine Lebensdauer von 5 Jahren eine vernünftige Annahme; 7 oder 10 Jahre sind ebenfalls möglich, bei maximaler Inferenzlast können aber auch 3 Jahre realistisch sein

Kosten pro Token und Vergleich mit OpenRouter

  • Die zentrale Variable bei den Kosten lokaler Modelle ist die Zahl der pro Stunde erzeugbaren Token; in Tests mit dem M5 Max lagen Modelle wie Gemma4:31b im Bereich von 10–40 Token pro Sekunde
  • Bei 10 Token pro Sekunde sind das 36.000 Token pro Stunde; bei einer Lebensdauer von 3 bis 10 Jahren und 0,18 $ pro kWh ergeben sich Kosten von 1,61–4,79 $ pro Million Token
  • Bei 40 Token pro Sekunde sind es 144.000 Token pro Stunde; die Kosten sinken dann auf 0,40–1,20 $ pro Million Token
  • Bei Apple Silicon bestimmen die Hardwarekosten die Gesamtkosten deutlich stärker als die Stromkosten
  • Der Preis für Gemma4 31b bei OpenRouter liegt bei etwa 0,38–0,50 $ pro Million Token
  • Unter optimistischen Annahmen von 50 W, 40 Token pro Sekunde und 10 Jahren Nutzung sinkt ein MacBook Pro Max auf ein ähnliches Kostenniveau wie OpenRouter
  • Unter pessimistischen Annahmen von 100 W, 10 Token pro Sekunde und 3 Jahren Nutzung ist ein MacBook Pro Max 10-mal teurer als OpenRouter
  • Aus buchhalterischer Sicht ist eine Schätzung sinnvoll, nach der lokale Inferenz auf einem Pro Max im Vergleich zu OpenRouter etwa das 3-Fache pro Million Token kostet
  • In den meisten Fällen ist die Inferenzgeschwindigkeit wichtiger als die Kosten; lokale Inferenz ist langsamer als Cloud-Inferenz
  • Einige Gemma-4-Anbieter auf OpenRouter erreichen 60–70 Token pro Sekunde und sind damit 3–7-mal schneller als die auf dem Pro Max beobachteten 10–20 Token pro Sekunde
  • Die Gehaltskosten von Mitarbeitenden mit Arbeits-Laptops liegen in diesem Kontext etwa 1.000-mal höher als die Kosten der lokal erzeugbaren Token, weshalb Ausgaben für Anthropic hier plausibler erscheinen
  • Dass sich auf Consumer-Geräten Modelle mit einer Leistung in der Nähe von Anthropic Sonnet ausführen lassen, bleibt dennoch ein bemerkenswertes Ergebnis

1 Kommentare

 
GN⁺ 3 시간 전
Hacker-News-Kommentare
  • Diese Analyse ist nicht besonders gut, weil ständig alle Werte nach oben gerundet werden. Der Strompreis wird um 10 % höher angesetzt, beim Stromverbrauch wird das obere Ende einer Spanne gewählt, das doppelt so hoch ist wie der niedrigere Wert, und darauf wird dann noch der aufgeblähte Strompreis angewendet
    Dazu kommt die Annahme, dass man einen neu gekauften Mac 24 Stunden am Tag unter Volllast für Inferenz laufen lässt. Warum sollte man das tun? Apple Silicon ist schnell, aber wie der Autor selbst anmerkt, mit etwa 10–40 Token pro Sekunde zwar nicht schlecht, aber ursprünglich nicht für so einen Zweck gedacht
    Rechenzentren zahlen keine Haushaltsstrompreise, verwenden energieeffizientere Chips und nutzen Chips, die nicht als Mac entworfen wurden. Apple Silicon verbrät nicht 24/7/365 Tokens, und wenn man die Hardware nicht eigens nur zu diesem Zweck neu kauft, ist es ziemlich ordentlich. Man kann einen Mac Studio ein paarmal pro Woche für die nötigen Aufgaben nutzen und ollama über ein Tailnet quasi „gratis“ laufen lassen. Wirtschaftlich ist das, wenn man den Mac Studio nicht wie einen flüssigkeitsgekühlten H100-Cluster betreiben will, und natürlich gewinnt fast immer die Seite mit Multi-Tenant-Hardware, billigem Strom und mehr Tokens pro Watt

    • Selbst wenn man alles mit den optimistischsten Annahmen nach unten rechnet, kommt man auf $0.40 pro Million Tokens, während OpenRouter dasselbe Modell für $0.38/Million Tokens anbietet
    • Der Beitrag ergibt an sich keinen Sinn. Man kann OpenRouter nicht als Allzweckcomputer verwenden, also warum vergleicht man einen kompletten Computer mit einem SaaS für einen einzigen Zweck?
    • Ich weiß nicht, woher die Zahl von 40 Tokens pro Sekunde kommt. Auf einem M5 Max 128GB habe ich mit Gemma 4 31B 95–100 Tokens pro Sekunde gesehen. Ich habe sogar Experimente mit demselben Prompt gemacht, bei denen es schneller war als Claude Opus 4.5
    • Eigentlich ist die Annahme einer Token-Erzeugung rund um die Uhr der Best Case. Rechnet man mit 8 Stunden tatsächlicher Nutzung pro Tag, bleiben die fixen Hardwarekosten der größte Posten im Budget, aber die erzeugten Tokens sinken auf 1/3, also steigen die Kosten pro Token auf das Dreifache
  • Wenn ich das nicht falsch verstehe, steckt diese Rechnung den gesamten Preis des Laptops in die Kosten der Token-Erzeugung. Dabei fehlt der Punkt, dass man für sein Geld nicht nur LLM-Ausgaben, sondern auch einen Laptop bekommt
    Wenn man die Maschine in eine dunkle Ecke stellen und nur als Server zum Token-Fressen betreiben will, dann ist ein Laptop für diesen Zweck wirklich eine schlechte technische Wahl. Wenn man den Laptop aber als Laptop verwenden will, ist es ein erheblicher Vorteil, überhaupt einen Laptop zu haben
    Außerdem bekommt man Privatsphäre, Freiheit von Zensur und Kontrolle über das verwendete Modell. Man vermeidet, dass ein Modell, um dessen Eigenheiten herum man drei Monate lang einen Workflow gebaut hat, plötzlich verschwindet

    • Ein besserer Maßstab könnte die Preisdifferenz zwischen einem Laptop sein, den man braucht, um lokale Modelle zu betreiben, und dem Laptop, den man sowieso gekauft hätte
    • Man bekommt die Modellkontrolle, hat dafür aber keinen Zugang zu den leistungsstärksten Modellen und kann nur kleinere Modelle ausführen
    • Man bekommt nicht nur LLM-Ausgaben, sondern auch einen Laptop, und wenn es ein Mac ist, bleibt beim Upgrade wahrscheinlich auch noch ein ordentlicher Wiederverkaufswert
    • Mit OpenRouter kann man Cyberpunk 2077 nicht in 5K HDR auf maximalen Einstellungen spielen
    • Der Originalbeitrag zeigt im Vergleich zu Leuten, die sich auf das Horten von Macs versteifen, eher den absoluten Best Case
      Erstaunlich viele dieser Leute haben über $10.000 für Mac Studios ausgegeben, haben aber immer noch Rechenengpässe, und viel effizientere Alternativen als Gemma 4 gibt es auch nicht
  • Frontier-AI-Unternehmen verkaufen mit Verlust
    Selbst wenn man alles beiseitelässt, was u/bastawhiz gesagt hat[0], verbrennen Claude, OpenAI, Gemini usw. buchstäblich Hunderte Milliarden Dollar und verkaufen 1-Dollar-Ware für ein paar Cent weiter, in der Hoffnung, am Ende als Letzte übrig zu bleiben
    Wenn ich $10 ausgebe, um Orangen anzubauen, und sie dann für $1 verkaufe, wirkt der Eigenanbau natürlich teurer. Diese Modelle können mit der Zeit nur teurer werden; sie versuchen nur, den Markt zu dominieren, bevor sie mit dem massiven Verkauf unter Kosten aufhören müssen
    [0]: https://news.ycombinator.com/item?id=48168433

    • Das scheint eher unwahrscheinlich. OpenRouter hat viele Anbieter für offene Modelle, und es ist schwer zu glauben, dass sie bei jedem verkauften Token Geld verlieren
      Außerdem gibt es auch technische Gründe, warum Inferenz mit größerem Maßstab viel effizienter wird
    • Der Blog vergleicht die Kosten für den Betrieb von Gemma4 31B, aber bei OpenRouter wird dieses Modell nicht von einem Frontier-AI-Unternehmen angeboten, sondern von kleinen, unbekannten Inferenzanbietern. Das wirkt wie ein ziemlich fairer Vergleich
    • Dennoch ist Skaleneffizienz in viel größerem Maß möglich. Bei meiner aktuellen Auslastung kann ich ein lokales Modell nicht 24 Stunden am Tag zu 98 % auslasten, eine große Cloud aber schon. Ich kann meinen Server auch nicht mit Gleichstrom versorgen, und ich habe die Ineffizienz der Umwandlung von Wechselstrom in Gleichstrom. Solche Faktoren summieren sich immer weiter
    • Das stimmt nicht. API-Tokens werden nicht mit Verlust verkauft, und Hardware wird mit der Zeit effizienter, sodass die Kosten für die Bereitstellung von Inferenz für dasselbe Modell sinken
      LLAMA 3.1 405B kostete 2024 $6/$12 pro Million Tokens, aber 2026 kostet dasselbe Modell $3/$3. Die jeweils intelligentesten Modelle zu einem bestimmten Zeitpunkt sind teurer als ihre Vorgänger, weil sie viel größer sind, daher kosten GPT5.5-Tokens mehr als 5.4. Aber in zwei Jahren wird es wahrscheinlich günstiger sein, ein Modell in der Größenordnung von GPT5.5 bereitzustellen als GPT5.5 heute. Distillationstechniken senken die Zahl der Parameter, die für dieselben Benchmark-Ergebnisse nötig sind, also wird man in zwei Jahren dasselbe Intelligenzniveau vermutlich billiger bekommen
    • Gibt es dafür Belege? Der CEO von Anthropic sagte, das Unternehmen sei profitabel, und OpenAI habe dasselbe gesagt
  • Wenn man ein gutes Dense-Modell will, ist man mit qwen3.6 27B besser bedient. Es ist schneller, und wenn du mir nicht glaubst, dass es klüger ist, dann sprechen die OpenRouter-Preise im Vergleich zu Gemma, das größer, langsamer und speicherineffizienter ist, für sich
    Wenn man ein schnelleres Modell will, nimmt man qwen3.6 35B. Wenn Gemma-Modelle besser zum eigenen Workload passen, kann man auch gemma 4 26B nehmen. Es gibt einen Grund, warum Leute, mich eingeschlossen, ständig über diese beiden sprechen, besonders über 27B. Es ist klein genug, um mit brauchbarer Geschwindigkeit zu laufen, vor allem jetzt, da llama.cpp offiziell integriertes MTP unterstützt, und bei vielen Workloads und allen Benchmarks, die ich ausprobiert habe, erreicht oder übertrifft es Modelle, gegen die es eigentlich nicht gewinnen sollte
    Vor ein paar Tagen wachte ich ohne Internet auf, startete 27B auf einem Pi, gab ihm das Router-Passwort und sagte ihm, es solle diagnostizieren, was los sei. Als ich mit Kaffee zurückkam, hatte ich einen vollständigen Bericht inklusive Vorschlägen zum weiteren Vorgehen. Ich mag OpenRouter und nutze es für viele Dinge, aber billiger ist es nicht
    Natürlich ist all das subjektiv und basiert auf persönlichen Erfahrungen mit all diesen Modellen. Es mag Fälle geben, in denen 31B Gemma vorne liegt, aber ich habe keine gefunden, und ich habe alle vier erwähnten Modelle seit Stunden nach ihrer jeweiligen Veröffentlichung für verschiedenste Aufgaben laufen lassen. Sogar in meinem hermes wurden die Ergebnisse besser, als ich von gemma 4 26B auf qwen3.5 9B wechselte, und das war noch nicht einmal die stark verbesserte 3.6-Reihe. Bei solchen Analysen kein Modell zu verwenden, das auf aktueller Consumer-Hardware als Stand der Technik gilt, wirkt veraltet oder nach Cherry-Picking

    • Stimmt. Qwen 3.6 45b (6 parameter) läuft auf einer gewöhnlichen RTX 5090, die man als Gamer vielleicht ohnehin schon hat. Für die meisten Aufgaben zur Codegenerierung ist es absolut brauchbar
      Ebenso ist DeepSeek V4 Flash als lokales Modell recht zugänglich, und mit DwarfStar 4 lässt es sich auf einem 96GB MacBook leicht betreiben
      Dass man Inferenzkosten zahlt, ist an sich nicht das Problem, aber lokale Modelle eröffnen ziemlich erstaunliche Möglichkeiten: komplett offline arbeiten, personenbezogene Daten oder rechtlich privilegierte Daten verarbeiten und Workloads ausführen, bei denen man sich überhaupt keine Gedanken über Verbrauchsgrenzen machen muss
      Ein weiterer Punkt ist, dass man Dienste bauen kann, die mit 100%iger Sicherheit dauerhaft weiterlaufen, ohne sich Sorgen über Ausfälle oder Abschaltungen eines Dienstes machen zu müssen. Bei Frontier-Modellen ist das aktuell ein Problem. Mein lokales Qwen-Setup ist völlig vorhersagbar und läuft weiter, solange ich nur die passende Hardware beschaffen kann
      Die vernünftige Strategie ist, beides zu nutzen. Man hat lokale Inferenz-Tools und setzt zusätzlich günstige und teure Cloud-Modelle ein. GPT-5.5 und Opus-4.7 nutzt man für die schwierigen Inferenzaufgaben, in denen sie gut sind, Letzteres über ein Claude-Abo etwas günstiger, DeepSeek V4 Pro für etwas weniger anspruchsvolle Aufgaben, V4 Flash für die meiste Codegenerierung und lokale Modelle überall dort, wo man lokale Modelle braucht
    • Ich stimme der Grundaussage zu, bin mir aber nicht sicher, ob man den Preis von qwen3.6 27B so lesen sollte
      Diese Anbieter scheinen sich am Alibaba-Erstpreis für 27B Dense zu orientieren, und persönlich halte ich das für etwas teuer. Es kann auch daran liegen, dass Qwen-Modelle im Vergleich zu Frontier-Modellen oder Gemma bei der Inferenz-Effizienz schlechter abschneiden und lange Sequenzlängen teuer bereitzustellen sind
    • Mich würde interessieren, wie man quantisierte Modelle gegeneinander bewertet. Ich habe noch keinen Benchmark gefunden, der mir wirklich gefällt
      Das Beispiel mit dem Debugging bei 27B ist gut. Ich habe ähnliche Erfolge gesehen, nachdem ich einen Mac mit viermal so viel Speicher gekauft hatte, und Qwen 35B A3B war plötzlich sehr gut. Die 9B auf einem Laptop würde ich kaum als gut bezeichnen
  • Es gibt hier viele Kommentare zu den Problemen der Analyse im Originalbeitrag, aber beim breiteren Fazit sehe ich vieles als fast „ohne praktischen Unterschied“. Abgesehen von Privatsphäre gilt bei reinem Preis-Leistungs-Verhältnis: Für einzelne Entwickler sind gehostete Dienste besser als Selbsthosting
    Im Job zahlt der Arbeitgeber die Token-Kosten, und außerhalb der Arbeit finden die meisten Entwickler, dass ein monatliches Abo für $20/$100/$200 bei ihrem bevorzugten Anbieter ausreicht. Unter rein wirtschaftlichen Gesichtspunkten gibt es nicht viele Entwickler, für die das Ausführen lokaler Modelle wirklich die richtige Wahl ist
    Noch wichtiger: Das Einrichten lokaler Modelle wirkt in der Praxis eher wie ein Hobby, ein Lernprojekt oder eine Frage der Kontrolle über die Privatsphäre als wie etwas, das Kosten spart oder die Produktivität steigert

    • Das mainframeartige Computing, von dem Modellhersteller träumen, wird nicht zurückkehren, egal wie sehr OpenAI, Google, Anthropic und Microsoft das wollen. Vor der Tür stehen zu viele kluge technologische Barbaren, die hineinwollen, und sie werden nicht zufrieden sein, in die Zeit der Computerterminals zurückzukehren
      Der Personal Computer beendete die frühere Terminal-Ära, die meisten dieser Unternehmen verschwanden, und nur IBM und ein paar andere Überlebende blieben übrig, allerdings nur noch als Schatten ihrer früheren Existenz
  • Der Autor vergleicht nur die Kosten der Ausgabe-Tokens, aber bei typischen agentischen Workloads machen Eingabe-Tokens einen großen Teil der Kosten aus. Bei lokaler Inferenz sind Eingabe-Tokens primär kostenlos
    Es entstehen nur implizite Kosten wie längere Time-to-First-Token, höherer Stromverbrauch und geringere Geschwindigkeit bei Ausgabe-Tokens

    • Genau, und das zerstört den Kern der Argumentation des Autors vollständig
      Ich habe mir ein paar beliebige agentische Sessions in meiner OpenRouter-Nutzung angesehen, und dort lagen die Eingabekosten beim Zehnfachen der Ausgabekosten. Prompt-Caching bei OpenRouter ist kompliziert und schwer zuverlässig einzuschätzen, aber auf lokaler Hardware mit llama-cpp ist es meistens beinahe gratis
    • Selbst wenn man das bessere Caching lokaler Setups ignoriert, verarbeitet Mac-Hardware Eingabe-Tokens oft ungefähr 10-mal schneller als Ausgabe-Tokens. Bei OpenRouter scheint derselbe Unterschied beim gleichen Modell eher bei Faktor 2 zu liegen
  • Wenn man es klug angeht, stimmt das nicht. Ein MacBook M5 Max 128GB ist zwar ein Premium-Laptop für 6.000 Dollar, kann aber sehr viele Dinge und ist eine hervorragende Hauptmaschine für den ganzen Tag
    Zusätzlich kann man DeepSeek V4 Flash darauf ausführen und damit lokal, ohne Zensur oder Einschränkungen, ohne Internetverbindung und mit hochsensiblen personenbezogenen Daten nichttriviale Aufgaben erledigen. Das ist ein gutes Geschäft. Wenn man ein Dual-Mac-Studio-512GB-Setup für 25.000 Dollar kauft, nur um OpenAI und Konsorten loszuwerden, wird man sowohl bei Leistung als auch bei Kosten enttäuscht sein

    • Die kluge Wahl ist ein MacBook mit etwa 48GB für den Alltag und dazu ein Jahresbudget von etwa $800 für AI-Abos oder Tokens. Dann landet man am Ende in derselben Preisregion
      Als Autor des Blogposts schreibe ich diesen Text auf einem MacBook M5 Max 128GB
    • Mein M4 Max 128GB hat sich letztlich als ziemlich vernünftige Entscheidung erwiesen. Ich schneide Videos, trainiere Machine-Learning-Modelle, betreibe große offene AI-Modelle, mache 3D-Modellierung, Rendering und CAD-Arbeiten
      Ich tue nicht all das ständig zu 100 %. Ich lasse über Nacht ML-Training laufen und sehe mir morgens die Ergebnisse an, betreibe es während der Arbeit wie einen Server für lokale Modelle und nutze es in meiner Freizeit für Videoschnitt und 3D-Modellierung. Es ist eine unglaublich vielseitige Maschine, und all das geschieht, während die Daten auf dem Gerät bleiben und ich die volle Kontrolle über den Workflow habe
    • Unter HN-Nutzern ist es ein Geheimnis, aber einige dieser Modelle laufen auch auf einem $200 teuren rpi5 oder einem AMD-Mini-PC für $500
      Ein weiteres offenes Geheimnis ist, dass manche Unternehmen Zehntausende Tokens kostenlos mit durchaus ordentlichen Modellen wie Gemini 3.1 oder GLM 4.6 anbieten
  • Der Originalbeitrag vergleicht hier und da mit Gemma und kommt dann zu dem Schluss, dass es besser sei, Anthropic zu bezahlen. Anthropic verlangt $15 pro Million Ausgabe-Tokens und ist selbst nach OpenRouter-Maßstab 30–35-mal teurer
    Das ist so, als würde man das E-Bike zu Hause mit einem E-Bike-Verleih vergleichen und dann folgern, man solle lieber einen Toyota mieten, weil man damit ungefähr ähnlich schnell fahren kann. Es ist ermüdend, wie viel Aufmerksamkeit schlechte Beiträge bekommen

  • Der Beitrag macht gegen Ende einen großen Fehler und liegt deshalb ernsthaft daneben. Man kann nicht nur auf erzeugte Tokens schauen und das dann als Kosten bezeichnen. Beim agentischen Coding gibt es viele Turns, sodass man nicht nur für Ausgabe-Tokens zahlt, sondern jedes Mal auch für alle erneut gesendeten Eingabe-Tokens. Selbst wenn das durch Caching um den Faktor 10 billiger wird, bleibt das so. Deshalb bildet diese Rechnung die API-Kosten überhaupt nicht korrekt ab
    Zweitens kann man die lokale Token-Erzeugung mit einem Agententeam stark steigern. Eine einzelne Unterhaltung ist durch die Speicherbandbreite begrenzt und nutzt die Rechenressourcen nicht vollständig aus. Wenn man Tokens mehrerer Agenten bündeln kann, lässt sich die Token-Erzeugung leicht verfünffachen

  • Mit Cloud-AI komme ich einfach nicht klar. Für mich sind Privatsphäre und vollständige Kontrolle wichtiger als Geschwindigkeit oder modernste Modelle

    • Dazu kommen Vorhersagbarkeit, Resilienz und Souveränität. Man muss sich keine Sorgen über Ausfälle anderer, unerwartete Nachfrage zu ungünstigen Zeitpunkten, die Verschlechterung des eigenen Modells durch andere, unvorhersehbare Preisänderungen oder hohe Rechnungen durch unerwartete Fehler machen
      Für mich fällt das in dieselbe Kategorie wie Solaranlagen auf dem Dach. Wenn man der Typ ist, der aus Kontrolle über Infrastruktur und geringerer Abhängigkeit innere Ruhe zieht, dann muss sich die Wirtschaftlichkeit nicht zwingend bis ins Letzte rechnen