Das Ausführen lokaler Modelle ist jetzt gut geworden
(vickiboykis.com)- Selbst auf einem M2 Mac von 2022 sind lokale LLMs inzwischen leistungsfähig genug, um praktisch für Entwicklungsfragen, Code-Arbeit und das Prüfen von Dokumentation eingesetzt zu werden
- Frühe lokale Modelle waren langsam, schwer zu nutzen und bei Programmieraufgaben ungenau, aber seit GPT-OSS muss deutlich seltener mit API-Modellen gegengeprüft werden
- Mit den neuesten Releases der Gemma-4-Familie läuft ein lokaler Agentic-Coding-Loop mit etwa 75 % Genauigkeit und Geschwindigkeit im Vergleich zu Frontier-Modellen
- Die Kombination aus Pi und LM Studio führt Agent-Workflows über lokale Inferenz-Endpunkte, Modellartefakte und eine per Docker isolierte Konfiguration aus
- Lokale Modelle haben weiter Grenzen bei Inferenzlatenz, kleinen Kontextfenstern und Hardwarebeschränkungen, dafür lassen sich Token-Verarbeitung, System-Prompts, Quantisierung und Harness direkt beobachten und verändern
Wo lokale Modelle heute stehen
- Frühe lokale Modelle waren bei den meisten Programmieraufgaben langsam, schwer zu verwenden und ungenau
- Die Einschätzung, dass lokale Modelle deutlich hinterherhinken, war aus Sicht der persönlichen Nutzung bis vor der Veröffentlichung von GPT-OSS im Großen und Ganzen zutreffend
- Der persönliche Maßstab für ein „ausreichend gutes Modell“ war, ob noch einmal mit einem API-Modell gegengeprüft werden musste, und GPT-OSS war das erste Modell, das diese Prüfungen stark reduzierte
- Bis vor Kurzem wurden lokale Modelle vor allem wie ein schnelles, personalisiertes Google für Entwicklungsfragen ohne Aktualitätsbedarf genutzt
- Seit den neuesten Releases der Gemma-4-Familie läuft ein Agentic-Coding-Loop lokal mit etwa 75 % der Genauigkeit und Geschwindigkeit von Frontier-Modellen {p:75}
Verwendete Modelle und Laufzeitumgebung
- Es wurden mehrere lokale Modelle auf einem M2 Mac von 2022 mit 64 GB RAM und 1 TB Speicher ausgeführt
- Verwendet wurden unter anderem Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE und Qwen 2.5 Coder
- Die Laufzeitkonfiguration ging über raw llama.cpp, Open WebUI, llama-cpp-python, Ollama, llamafiles und LM Studio
- Als Standard für das lokale Modell wurde die LM-Studio-Implementierung von
gemma-4-26b-a4bverwendet
Konkrete Beispiele für lokale Agent-Arbeit
- Ein Python-Skript im Notebook-Stil wurde in ein Repository mit 5 bis 6 Modulen refaktoriert
- Diese Module wurden so gelintet, dass sie generische Type Hints gemäß PEP 585 verwenden
- Auch für das Korrekturlesen von Blogposts, das Schreiben von Unit-Tests und den initialen Aufbau eines Repositories für ein Two-Tower-Empfehlungsmodell wurde die lokale Konfiguration verwendet
- Das vom Agenten aus dem Nichts erzeugte Repository für das Two-Tower-Modell war zwar grundlegend, lag aber über dem, was im vergangenen Jahr noch für möglich gehalten worden wäre
- Alle Agent-Workflows liefen in Docker-Containern mit eingeschränkten Ausführungsrechten
Ressourcennutzung und aktuelle kleine Modelle
- Die ausgeführten Aufgaben waren weniger bahnbrechend als vielmehr mit personalisiertem Google oder Dokumentenabfrage vergleichbar
- Während der Arbeit stiegen GPU- und RAM-Auslastung stark an, und der K-V-Cache wuchs bis auf 64 GB RAM
- Selbst einfache Aufgaben dieser Art mit lokalen Modellen wären noch vor sechs Monaten nicht möglich gewesen
Gemma-4-12b-qatwar schon direkt nach dem Release in Bezug auf das Verhältnis von Größe zu Leistung beeindruckend- Die Modellarchitektur wirft die Frage auf, welche architektonischen Kompromisse bei Leistungs- und Preisbeschränkungen nötig sind
Konfiguration zum Ausführen lokaler Agent-Modelle
- Um einen lokalen Agent-Flow auszuführen, werden eine lokale Modell-Inferenz-Engine, ein Agent-Harness und lokale Modellartefakte benötigt
- Das Harness muss so konfiguriert werden, dass es auf einen lokalen Inferenz-Endpunkt zeigt, und die heruntergeladenen Modellartefakte müssen über die Inferenz-Engine bereitgestellt werden
- In der aktuellen lokalen Konfiguration dient Pi als Agent-Harness und LM Studio als Inferenzserver
- Dabei wurde dem Artikel Gemma 4 Agent Coding mit Pi und LM Studio einrichten gefolgt, allerdings mit einigen geänderten Einstellungen
- Statt
Gemma 26B A4Baus dem Artikel wurde das neuere, kleinere und schnelleregemma-4-12b-qatverwendet, ohne große Einbußen bei der Genauigkeit - Aus Sicherheitsgründen wurden alle Pi-Sitzungen in Docker-Containern ausgeführt und nur mit bash-Rechten versehen, sodass Python-Code-Ausführung und Web-Browsing blockiert waren
- Für ein separates Image für Forschungsaufgaben ist geplant, curl zu erlauben
- Da Pi innerhalb von Docker läuft, wurde
models.jsonvon Pi angepasst, damit Pi mit dem Modell kommunizieren kann
- Statt
Docker-basierte Isolierung
- In der Pi-Konfiguration wurde
baseUrlaufhttp://host.docker.internal:1234/v1gesetzt und als APIopenai-completionskonfiguriert - Die Docker-Compose-Konfiguration mountet
models.json, das Arbeitsverzeichnis, die Pi-Konfiguration und das Sitzungsverzeichnis in den Container - Das Startskript verbindet das aktuelle Arbeitsverzeichnis mit dem Workspace des Containers und fügt bei Bedarf eine zusätzliche, sicherere Sandbox-Compose-Datei hinzu
- Pi wird im aktiven Repository ausgeführt und startet Docker, kann dadurch aber Dateien oder Verzeichnisse auf dem physischen Datenträger nicht direkt löschen
- Benutzerdefinierte Modell-
json-Konfigurationen konnten in den Container übergeben werden und funktionierten in der Experimentierumgebung vergleichsweise gut
Verbleibende Grenzen
- Lokale Modelle können bei der Inferenz noch immer langsam sein, die Kontextfenster sind klein, und der nutzbare Kontext ist durch die vorhandene Hardware begrenzt
- Das Ökosystem ist dank Tools wie LM Studio und dem Use This Model Button von Hugging Face deutlich einfacher geworden
- Frühe Releases leiden unter Problemen wie nicht passenden Prompt-Templates, doch solche Probleme werden normalerweise sehr schnell gepatcht
- Es ist noch schwer, mit Sicherheit zu sagen, dass sie bereits direkt für die Entwicklung von Produktionssoftware bereit sind
Vorteile lokaler Modelle und Experimentiermöglichkeiten
- Bei lokalen Modellen lässt sich fast alles einsehen, einschließlich des Token-Inferenzprozesses in Echtzeit
- Der Ein- und Ausgabefluss von Tokens kann direkt überprüft werden
- Es lässt sich beobachten, wie sich Änderungen am lokalen Kontextfenster positiv oder negativ auf die Leistung auswirken
- Man kann sich damit beschäftigen, wie Tokens auf der GPU verarbeitet werden, und auch System-Prompts sowie Quantisierungseinstellungen verändern
- Modelle lassen sich gegeneinander antreten, und auch Harness-seitige Einstellungen können verändert und beobachtet werden, wodurch die Experimentiermöglichkeiten weiter wachsen
1 Kommentare
Hacker-News-Kommentare
Ich weiß nicht, ob es wirklich besser geworden ist. Ich nutze viele lokale Modelle, aber lokale Ausführung ist immer noch ziemlich schmerzhaft
Dichte Modelle wie Qwen 27B und Gemma 31B sind ziemlich klug, aber langsam, und Mixture-of-Experts-(MoE)-Modelle wie Gemma 26B, Qwen 35B und North Mini Code 30B sind schnell, machen aber viele Fehler
Um sie ordentlich zu betreiben, braucht man viel Speicher, und durch Quantisierung wird Tool-Calling schwächer. Die meisten lassen sie in 4-Bit-Quantisierung laufen und wundern sich dann, warum sie nicht besonders gut sind, aber im Grunde hat man das Modell damit lobotomiert. Ich empfehle Unsloth-Quantisierung; für MoE 6 Bit, für dichte Modelle 5 Bit
Für schnelles Prefill braucht man Rechenleistung, für schnelles Decoding Bandbreite, und damit alles hineinpasst, braucht man außerdem viel Speicher. Dazu kommt, dass Laptops zu heißen und lauten Maschinen werden und dadurch beim Arbeiten unangenehm sind
Also, ist es gut? Eher nicht. Es funktioniert
Ergänzend: Ich glaube, dass Open Models die Zukunft sind, und ich trage weiter zum Ökosystem bei. Es wäre gut, wenn Leute mit solchen Modellen herumspielen und mit
pilernen, wie sie funktionieren, aber man sollte nicht erwarten, dass es sofort gut ist, nur weil man ein Modell herunterlädt. Um das zu ersetzen, was die meisten als „Coding Agent“ wollen, braucht es viel Tuning und KonfigurationModelle ohne Coding-Fokus blieben oft dabei hängen, keine echten Tool-Calls auszuführen, sondern nur zu sagen: „Ich würde jetzt so handeln“, und selbst wenn ich fragte, was ich konfigurieren müsse, um dieses Verhalten zu ändern, half das nicht. Qwen glaubte partout nicht, dass es in ollama lief, und beharrte darauf, auf der Alibaba-Cloud zu laufen und keinen Zugriff auf das lokale System zu haben
Auch Coding-Modelle dachten nur knapp schneller als ich tippen konnte, und selbst wenn sie ihren Denkprozess zeigen konnten, war das nur eingeschränkt möglich
Die beste „kostenlose“ Erfahrung, die ich bisher gefunden habe, ist OpenCode + Big Pickle. Es ist nicht besonders klug, daher ist das erste Ergebnis oft falsch, aber der Free-Tier ist großzügig genug, dass ich selbst bei häufiger Nutzung über jeweils mehrere Stunden im Monat nur etwa zweimal an ein Limit gestoßen bin. Wenn echtes lokales Ausführen das Ziel ist, passt das nicht, aber wenn das Ziel „die beste Erfahrung ohne Abo- oder Token-Kosten“ ist, war das bisher die am wenigsten schlechte Wahl
Der Versuch, das auf Geräten wie einem Mac mit Unified Memory, einem AMD-Prozessor mit AI Max oder etwas DGX-Spark-Ähnlichem zu betreiben, kommt eher einer selbst gewählten Leidensgeschichte gleich. Prefill ruiniert die Performance
Mit passenden GPUs wird es deutlich besser, aber selbst dann bleibt es noch hinter Sonnet oder DeepSeek 4 Flash zurück und erst recht hinter Opus / DeepSeek Pro oder Mythos/Fable/GPT-5.5
Wenn Budget, Stromversorgung und Kühlung ausreichen, kann man eine ziemlich gute Datenpipeline betreiben, aber für Code ist es in den meisten Fällen noch vernünftiger, einen API-Anbieter zu bezahlen
Trotzdem ist es einen Versuch wert, wenn man sich nicht zu stark auf zentralisierte Dienste verlassen will
Meiner Erfahrung nach übertrifft es bei Regelbefolgung oder Automatisierungsaufgaben die Qwen-Modelle, sogar 100B+, und die Bildinterpretation ist ebenfalls sehr gut und liegt laut Benchmarks über Opus
Qwen neigt dazu, Anweisungen zu ignorieren, und wenn man das Format der Token-Generierung nicht explizit einschränkt, gibt es beständig ein falsches Format aus
Auf DGX Spark läuft Gemma 31B Q4 + MTP allerdings nur mit etwa 20 Token/s und Gemma 26B A4B mit etwa 60 Token/s, also immer noch ziemlich langsam. Auf High-End-Nvidia-Karten würde es viel schneller laufen und auch in den Speicher passen
Wer mit lokalen Modellen anfängt, sollte sich meiner Meinung nach eher auf Speicherbandbreite als auf RAM konzentrieren. Modelle unter 100B reichen inzwischen für Automatisierung aus und sind sehr nützlich
Ich stimme zu, dass es für Coding/kreative Arbeit noch keinen starken Grund gibt, lokale Modelle zu nutzen. Aber für Aufgaben wie Aktienlisten durchgehen, News per Hochpass filtern, Logs interpretieren oder Screenshots auswerten reichen lokale Modelle schon jetzt aus
Ein M6 Mac Studio mit etwa 256GB RAM, auf den mehrere Leute für ein gemeinsam ausgewähltes Modell zugreifen, könnte man vielleicht rechtfertigen. Für diesen Zweck wirken Laptops zu heiß und zu träge
Ich habe Qwen3.6-27B einige Wochen lang zufrieden genutzt, bin aber gerade von meiner Hardware getrennt und muss daher derzeit Claude Sonnet 4.6 verwenden, und es fühlt sich wie ein gewaltiges Downgrade an.
Ich verstehe nicht, wie das möglich ist. Es hat viel zu viele ungefragte starke Meinungen, ist viel zu wortreich und wirkt insgesamt dümmer.
Klar, es ist ein viel größeres Modell und hat daher vermutlich mehr Wissen enkodiert, aber das hilft nicht, wenn man sich nicht gern mit ihm unterhält. Außerdem kostet die Unterhaltung damit tatsächlich Geld.
Ich frage mich, warum ich es so sehr nicht mag. Vielleicht, weil es sich nicht als Werkzeug sieht, sondern fast als gleichrangiges Gegenüber. Es benimmt sich, als hätten seine Meinungen Gewicht.
Qwen kann sich auch wie ein übereifriger Praktikant verhalten, aber wenn man ihm sagt, dass es Unsinn redet, lässt es sein Ego fallen. Bei Claude war das meiner Erfahrung nach nicht so.
Insgesamt stimme ich dem Titel voll zu.
Ich habe es in den letzten anderthalb Monaten fast täglich auf einem M2 Ultra oder einer RTX-5090-Maschine benutzt. Ich verwende es für kleine, alltägliche Aufgaben bei ggml-org [0]; nichts Spektakuläres, aber als Werkzeug für einen Maintainer definitiv hilfreich.
Wenn ich nicht so viel Zeit für PR-Reviews aufwenden würde, hätte ich es wahrscheinlich noch deutlich mehr genutzt. Im Moment verwende ich ein sehr leichtes Harness, im Grunde nur den völlig abgespeckten pi-Agenten (
pi -nc --offline) und einen kurzen System-Prompt [1], um ihn an meinen Stil anzupassen.Die Generierungsgeschwindigkeit liegt bei etwa 100–150 Tokens/s auf der RTX 5090 und etwa 40 Tokens/s auf dem Mac. Ich bevorzuge klar die RTX-Maschine, weil sie viel schneller ist, aber ich lasse es auch oft auf dem Mac laufen, um lokale Setups zu testen und mehr Praxiserfahrung zu sammeln.
[0] - https://github.com/search?q=%22Assisted-by%22+user%3Aggml-or...
[1] - https://github.com/ggml-org/llama.cpp/blob/master/.pi/gg/SYS...
Für Dinge wie „füge große Funktion X hinzu“ ist es vielleicht schlechter als Opus, aber genau so etwas will ich gar nicht vom Modell. Ich will denken, und das Modell soll tippen. Für diesen Zweck ist Qwen 3.6 27B völlig ausreichend. In meiner Erfahrung waren 35A3B und die Gemma-Familie ein deutliches Downgrade.
Außerdem gibt es keine Sorgen wegen Rate Limits, Quoten oder Warteschlangen zu Stoßzeiten. Man kann immer den vollständigen Denkprozess sehen, muss sich keine Gedanken machen, wohin die Daten geschickt werden, und es wird einem nicht heimlich verschlechtert.
Ich nutze auf 2×3090 llama.cpp mit Q6_K_XL + MTP und komme auf 500–1000 Tokens/s beim Prefill, 60 Tokens/s bei der Ausgabe und ein Kontextfenster von 220.000 Tokens. Ab etwa 160.000 Tokens wird es langsam etwas dümmer, und ich nutze keine KV-Quantisierung.
Vielleicht ist das ein Nebenprodukt der Denkfunktion, aber ich wünschte, es würde seinen Denkprozess viel knapper zusammenfassen. Es gibt Situationen, in denen ein Antwortsatz völlig reicht, und trotzdem schreiben moderne Topmodelle mindestens fünf Absätze und versuchen, drei bis fünf neue Richtungen vorzuschlagen.
Selbst wenn man ausdrücklich darum bittet, nur einen Schritt auf einmal zu machen, immer nur eine Option zu nennen und nicht proaktiv nächste Richtungen vorzuschlagen, ist das per Prompt wirklich schwer zuverlässig zu steuern.
Wobei ich gerade selbst genau das gemacht habe, worüber ich mich beschwert habe.
Programmierer sind daran gewöhnt, kein Geld für Werkzeuge auszugeben. Schon ein normales Notebook (SSD, Multicore, 16 GB RAM) ist für C/C++/Rust und sogar für Python-Entwicklung unglaublich leistungsfähig.
Und plötzlich reicht das nicht mehr aus, und man ist wieder in einer Situation, in der man fremde Computer benutzt und sich täglich Werkzeuge leiht. Noch schlimmer ist, dass man jeden Tag ein anderes Modell verwendet und dass man an manchen Tagen vielleicht nicht einmal das gute Werkzeug leihen kann, weil irgendeine mafiöse Macht den Hersteller unter Druck setzt.
Die meisten anderen Berufe müssen erheblich in Werkzeuge investieren. Wenn man gute Werkzeuge will, braucht man etwa 64 GB GPU-Speicher (z. B. 2×5090) und rund 96 GB RAM. Wenn man einem erfahrenen Ingenieur 200.000 Dollar zahlt, wirken 50.000 Dollar für Werkzeuge alle zwei Jahre eigentlich ziemlich vernünftig.
Das ist ein Trend, über den sich Unternehmen wie Anthropic Sorgen machen sollten. Je einfacher die Ausführung lokaler Modelle wird, desto niedriger wird die Preisobergrenze, die sie durchsetzen können.
Es wird zwar nicht so sein, dass niemand mehr $$$$$ pro Monat zahlen will, aber viele werden die Monatsgebühr mit 12 oder 24 multiplizieren und sich fragen: „Kann ich für weniger Geld ein lokales Modell-Setup aufbauen und die Kosten in 1–2 Jahren wieder hereinholen?“
Wenn sich ein erheblicher Teil der Kunden für Kauf statt Miete entscheidet, könnten Unternehmen mit mietzentriertem Geschäftsmodell plötzlich unter Kundenmangel leiden.
Das ist inzwischen fast in das amerikanische Geschäftsmodell eingebrannt: Alles wird ausgelagert. Niemand will selbst den Serverraum betreiben, und selbst wenn es 2–3x mehr kostet, lagern die Leute lieber auch den Ärger und die Verantwortung aus.
Bei AI wird es genauso sein. Ob man diese Prämie nun an Anthropic oder an AWS zahlt, ist letztlich dasselbe.
Ich arbeite in einem eher kleinen Unternehmen, und wir hatten kürzlich einen Ausfall bei lokaler Infrastruktur. Obwohl unsere gesamte interne Downtime der letzten 5 Jahre deutlich geringer war als bei einem einzigen großen AWS-Ausfall in jüngster Zeit, macht der CEO jetzt Druck, dass das Hosting eigener Infrastruktur nicht vertrauenswürdig sei.
Alle wollen lästige Arbeit und Verantwortung loswerden.
Normale Mainstream-Nutzer zahlen wahrscheinlich eher für etwas, das schon eingerichtet ist und sofort funktioniert. Technisch versiertere oder entschlossenere Leute werden es selbst machen, aber ich frage mich, wie das Verhältnis zwischen diesen beiden Gruppen ausfallen wird.
Ich weiß nicht, ob es die Idee schon gab, so etwas wie eine 4-GPU-Maschine zu verkaufen, die ein Engineering-Team irgendwo in einen Schrank stellt und darauf die gewünschten Modelle laufen lässt.
Das wäre nicht für alle attraktiv, aber nachdem es Vertrauensprobleme damit gibt, dass Hyperscaler die Daten der Leute absaugen und zum Modelltraining verwenden, werden manche wohl Wert auf Maschinen und Modelle legen, die man transparent kontrollieren und bei Bedarf sogar selbst vom Strom trennen kann.
Schon mit Sonnet 4.6 kann man im 20-Dollar-Monatsabo fast den ganzen Tag arbeiten. Und Sonnet ist immer noch deutlich leistungsfähiger als Modelle, die man auf einem M2 Mac selbst hosten kann.
Vielleicht würde ich anders denken, wenn alle auf tokenbasierte Abrechnung umsteigen würden, aber auf Abo-Basis geht die Rechnung finanziell für mich nicht auf.
Es macht Spaß. Aber wirtschaftlich sinnvoll ist es nicht.
OpenAI kauft den gesamten RAM am Spotmarkt auf, wodurch die RAM-/VRAM-Preise auf das Sechsfache steigen und GPUs sowie brauchbare Computer für die meisten unerreichbar werden.
Einige Wohlhabende werden vielleicht einen 512GB Mac Studio oder eine RTX Pro 6000 für 13.000 Dollar kaufen und darauf recht brauchbare lokale Modelle laufen lassen können, aber die meisten werden APIs nutzen müssen.
Irgendwann könnte Nvidia sagen: „Wir verkaufen von der 6000 ohnehin nicht so viele, und mit reinen Datacenter-GPUs machen wir den vierfachen Gewinn, also streichen wir sie einfach.“ Dann wäre sie praktisch nicht mehr zu bekommen, und für Privatleute könnte es unmöglich werden, lokal brauchbare Modelle zu betreiben, die dem neuesten Stand nur etwa ein Jahr hinterherhinken.
Ich würde gern den Code sehen, der damit entstanden ist. Ich möchte lokale Modelle verwenden und habe auch die Hardware, aber als Ersatz für State-of-the-Art-Modelle wie GPT 5.5 xhigh oder Opus sind sie nach meiner Erfahrung noch nicht bereit.
Wegen Qualitätsproblemen und Reibungsverlusten wird der Arbeitsablauf zu langsam, und manchmal verhauen sie sogar noch die Syntax für Tool-Calls.
Für kleinere, klar definierte Abläufe oder für Edits wie „ändere genau diesen Teil auf genau diese Weise“ scheinen sie aber auszureichen. Ich warte darauf, dass sie reif genug werden, um den aktuellen Stand der Technik zu ersetzen, und dann wäre für mich der Zeitpunkt zum Umstieg gekommen.
Wenn wir schon über lokale Modelle sprechen, sollte man DiffusionGemma und Diffusionsmodelle generell für den lokalen Einsatz nicht unterschätzen. Das Problem bei lokalem Einsatz ist meist, dass LLMs die Hardware nicht effizient ausnutzen, solange sie Requests nicht bündeln und mehrere gleichzeitig ausführen — und dafür müsste man den gesamten Ansatz ändern. Diffusionsmodelle sind bei einem einzelnen Prompt dagegen deutlich schneller, und der Unterschied ist nicht klein.
Heute habe ich zufällig den Support für diffusiongemma-26B-A4B-it von Transformers nach Candle portiert und noch ein paar Optimierungen ergänzt, sodass die Inferenz in Candle jetzt mit ungefähr 450 Tokens/s (etwa 19 Iterationen/s) förmlich fliegt. In der HF-Transformers-Bibliothek waren es ungefähr 180 Tokens/s (etwa 11 Iterationen/s). Selbst mit vLLM habe ich bei einem ähnlich großen LLM mit einem einzelnen Prompt wohl nie mehr als 250 Tokens/s erreicht, also ist das für ein lokales Modell ziemlich interessant.
Für 2600 Dollar bekommt man zwei AMD-9700-GPUs mit je 32GB RAM und etwa 285W Leistungsaufnahme pro Karte. Sowohl Kosten als auch Stromverbrauch liegen unter einer 5090.
Mit einem VLLM-Build mit AITER-Patch kann man Qwen3.6 27B FP8 in echten Coding-Sessions mit Opencode oder PI über das gesamte Kontextfenster hinweg mit etwa 45–50 TPS laufen lassen.
Ich hoffe wirklich, dass weiterhin mehr dichte Modelle in der 30B-Klasse erscheinen, aber schon mit Qwen3.6 kann man ziemlich viele Agenten-Tasks abdecken.
Der ROCm-Stack ist allerdings nichts für Leute, die nicht bereit sind, selbst tief einzusteigen und Patches einzuspielen.
Ich frage mich, warum die Maßstäbe dafür, was „gutes“ Agent Coding ist, von Person zu Person so stark variieren.
Einerseits ist es wirklich erstaunlich, dass wir von einer Intelligenz auf dem Niveau von „Spiele in Apple Music ‚Set a Timer‘ ab“ bis hin zu einem Stand gekommen sind, der den Turing-Test bestehen könnte. Praktisch betrachtet sind kleine Modelle aber noch weit davon entfernt, mehr als nur eine Tech-Demo zu sein, die man als „gut“ bezeichnen könnte.
Für mich ist ein 7B-Modell nur ein verschwommenes Echo von Wikipedia. Ein 4-Bit-Gemma-Modell ist viel zu unbeholfen, um zuverlässig JSON für Tool-Calling zu erzeugen oder auch nur eine einzelne Codezeile zum Anwenden eines Patches zu kopieren.
Qwen braucht so viele detaillierte Anweisungen und so viel Betreuung, damit es nicht in Endlosschleifen gerät oder den Kontext verliert, dass die Anweisungen, die ich geben muss, am Ende oft länger sind als der Code, der dabei herauskommt.
Gibt es da irgendeinen magischen Prompt, den ich nicht kenne? Oder sind andere Leute einfach viel geduldiger oder haben deutlich niedrigere Erwartungen?
Bei kleinen Skripten, Glue Code und einfachen CRUD-Änderungen können kleine Modelle wie Qwen3.6-27B deutlich besser funktionieren als in größeren und unordentlicheren Codebasen.
Wenn man Qwen/Gemma in der 27/35B-Klasse mit FP8 betreibt, sind sie besser als gemini-2.5, aber schlechter als gemini-3.1. DS4-flash FP8 lässt sich auf zwei DGX Spark betreiben, und die Lage verbessert sich ständig. DiffusionGemma hat zuletzt eine 4-fache Token-Generierungsgeschwindigkeit gezeigt.
Kurz gesagt wirken die verwendeten Modelle zu klein oder zu stark quantisiert.
Ich betreibe gern zwei Modelle lokal: qwen3.6 27B 8-Bit (dense) und qwen3.6 35B 4-Bit (Mixture of Experts).
Das 27B ist klüger und verlässlicher, aber langsamer. Das 35B ist schneller und immer noch sehr klug, liegt aber unter dem 27B und ist etwas weniger stabil. Der Grund ist die Mixture-of-Experts-(MoE-)Architektur: Es werden nur einige Parameter aktiviert, wodurch das Modell viel schneller wird.
Das 27B lasse ich auf einem MacBook Pro M5 Max + 40 GPU-Kernen + 128 GB RAM laufen. Auf diesem Monster kann ich sowohl 27B als auch 35B gleichzeitig im Speicher halten und habe trotzdem noch Luft für andere Aufgaben. Aber weil es ein Laptop ist, kann ich lokale LLMs nicht ständig laufen lassen. Er wird zu heiß und zu laut.
Noch interessanter ist es, das 35B-Modell auf einem MacMini M4 mit 64 GB RAM laufen zu lassen. Es ist schnell und erledigt viele Dinge. Zum Beispiel scannt, extrahiert und klassifiziert es E-Mails und überwacht dabei fortlaufend den Posteingang. Ich nutze es auch als persönlichen Hermes-Assistenten und frage Dinge wie „Wann ist der nächste Starship-Start?“, „Wer spielt heute bei der Weltmeisterschaft? Erzähl mir auch ein paar Trivia dazu.“
Der nächste Plan ist eine RTX Pro 6000 Blackwell-Workstation im Keller. Ich möchte Qwen sehr schnell mit mehreren Threads/Prompts/Agenten gleichzeitig laufen lassen. Wenn das Budget es zulässt, hätte ich gern ein 2×RTX Pro 6000-Setup, um DeepSeek v4 flash zu betreiben und für Forschung zu nutzen.
Im Alltag hoste ich Qwen3.6:27b, aber ich würde wirklich gern deepseekv4 flash hosten. Es ist ein so „gutes“ Modell in Bezug auf Größe/Geschwindigkeit/Preis.
Ich frage mich, wann Unternehmen anfangen werden, statt für jeden Entwickler Abogebühren zu zahlen, Modelle für Alltagsaufgaben on-premises zu hosten. Sie sind gut genug und relativ günstig.
Zwar wurde nicht danach gefragt, aber ich glaube nicht, dass irgendjemand von uns für das Schreiben von Code oder fast irgendetwas anderem die neuesten Spitzenmodelle verwenden sollte.
Stattdessen sollten wir offene Modelle für bestimmte Aufgaben entwickeln und lernen, mit knöchernen Fingern und einem Gehirn aus Fleisch zu programmieren, zu schreiben und zu zeichnen.
Große Unternehmen und Forschungseinrichtungen könnten sie vielleicht nutzen, um Code, Mathematik und Ähnliches zu erzeugen, wenn Experten dabeisitzen, die prüfen, ob die Ergebnisse stimmen, aber selbst dann könnte es den Preis nicht wert sein. OpenAI hat zum Beispiel letztes Jahr netto 36 Milliarden Dollar Verlust gemacht, offene Modelle sind bereits ziemlich nah dran, und dem gesamten AI-Plan geht allmählich der Betrug aus, den man noch herauspressen könnte.
Es gibt viele Dinge, die man auch mit sehr kleinen Modellen tun kann, und viele Aufgaben, die keine wahnsinnige Rechenleistung und keinen riesigen Speicher brauchen, aber es gibt viel zu wenige Leute, die diese Richtung ernsthaft erforschen.