Das Ausführen lokaler Modelle ist jetzt gut geworden

(vickiboykis.com)

20 Punkte von GN⁺ 2026-06-17 | 7 Kommentare | Auf WhatsApp teilen

Selbst auf einem M2 Mac von 2022 sind lokale LLMs inzwischen leistungsfähig genug, um praktisch für Entwicklungsfragen, Code-Arbeit und das Prüfen von Dokumentation eingesetzt zu werden
Frühe lokale Modelle waren langsam, schwer zu nutzen und bei Programmieraufgaben ungenau, aber seit GPT-OSS muss deutlich seltener mit API-Modellen gegengeprüft werden
Mit den neuesten Releases der Gemma-4-Familie läuft ein lokaler Agentic-Coding-Loop mit etwa 75 % Genauigkeit und Geschwindigkeit im Vergleich zu Frontier-Modellen
Die Kombination aus Pi und LM Studio führt Agent-Workflows über lokale Inferenz-Endpunkte, Modellartefakte und eine per Docker isolierte Konfiguration aus
Lokale Modelle haben weiter Grenzen bei Inferenzlatenz, kleinen Kontextfenstern und Hardwarebeschränkungen, dafür lassen sich Token-Verarbeitung, System-Prompts, Quantisierung und Harness direkt beobachten und verändern

Wo lokale Modelle heute stehen

Frühe lokale Modelle waren bei den meisten Programmieraufgaben langsam, schwer zu verwenden und ungenau
Die Einschätzung, dass lokale Modelle deutlich hinterherhinken, war aus Sicht der persönlichen Nutzung bis vor der Veröffentlichung von GPT-OSS im Großen und Ganzen zutreffend
Der persönliche Maßstab für ein „ausreichend gutes Modell“ war, ob noch einmal mit einem API-Modell gegengeprüft werden musste, und GPT-OSS war das erste Modell, das diese Prüfungen stark reduzierte
Bis vor Kurzem wurden lokale Modelle vor allem wie ein schnelles, personalisiertes Google für Entwicklungsfragen ohne Aktualitätsbedarf genutzt
Seit den neuesten Releases der Gemma-4-Familie läuft ein Agentic-Coding-Loop lokal mit etwa 75 % der Genauigkeit und Geschwindigkeit von Frontier-Modellen {p:75}

Verwendete Modelle und Laufzeitumgebung

Es wurden mehrere lokale Modelle auf einem M2 Mac von 2022 mit 64 GB RAM und 1 TB Speicher ausgeführt
- Verwendet wurden unter anderem Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE und Qwen 2.5 Coder
Die Laufzeitkonfiguration ging über raw llama.cpp, Open WebUI, llama-cpp-python, Ollama, llamafiles und LM Studio
Als Standard für das lokale Modell wurde die LM-Studio-Implementierung von gemma-4-26b-a4b verwendet

Konkrete Beispiele für lokale Agent-Arbeit

Ein Python-Skript im Notebook-Stil wurde in ein Repository mit 5 bis 6 Modulen refaktoriert
Diese Module wurden so gelintet, dass sie generische Type Hints gemäß PEP 585 verwenden
Auch für das Korrekturlesen von Blogposts, das Schreiben von Unit-Tests und den initialen Aufbau eines Repositories für ein Two-Tower-Empfehlungsmodell wurde die lokale Konfiguration verwendet
Das vom Agenten aus dem Nichts erzeugte Repository für das Two-Tower-Modell war zwar grundlegend, lag aber über dem, was im vergangenen Jahr noch für möglich gehalten worden wäre
Alle Agent-Workflows liefen in Docker-Containern mit eingeschränkten Ausführungsrechten

Ressourcennutzung und aktuelle kleine Modelle

Die ausgeführten Aufgaben waren weniger bahnbrechend als vielmehr mit personalisiertem Google oder Dokumentenabfrage vergleichbar
Während der Arbeit stiegen GPU- und RAM-Auslastung stark an, und der K-V-Cache wuchs bis auf 64 GB RAM
Selbst einfache Aufgaben dieser Art mit lokalen Modellen wären noch vor sechs Monaten nicht möglich gewesen
Gemma-4-12b-qat war schon direkt nach dem Release in Bezug auf das Verhältnis von Größe zu Leistung beeindruckend
Die Modellarchitektur wirft die Frage auf, welche architektonischen Kompromisse bei Leistungs- und Preisbeschränkungen nötig sind

Konfiguration zum Ausführen lokaler Agent-Modelle

Um einen lokalen Agent-Flow auszuführen, werden eine lokale Modell-Inferenz-Engine, ein Agent-Harness und lokale Modellartefakte benötigt
Das Harness muss so konfiguriert werden, dass es auf einen lokalen Inferenz-Endpunkt zeigt, und die heruntergeladenen Modellartefakte müssen über die Inferenz-Engine bereitgestellt werden
In der aktuellen lokalen Konfiguration dient Pi als Agent-Harness und LM Studio als Inferenzserver
Dabei wurde dem Artikel Gemma 4 Agent Coding mit Pi und LM Studio einrichten gefolgt, allerdings mit einigen geänderten Einstellungen
- Statt Gemma 26B A4B aus dem Artikel wurde das neuere, kleinere und schnellere gemma-4-12b-qat verwendet, ohne große Einbußen bei der Genauigkeit
- Aus Sicherheitsgründen wurden alle Pi-Sitzungen in Docker-Containern ausgeführt und nur mit bash-Rechten versehen, sodass Python-Code-Ausführung und Web-Browsing blockiert waren
- Für ein separates Image für Forschungsaufgaben ist geplant, curl zu erlauben
- Da Pi innerhalb von Docker läuft, wurde models.json von Pi angepasst, damit Pi mit dem Modell kommunizieren kann

Docker-basierte Isolierung

In der Pi-Konfiguration wurde baseUrl auf http://host.docker.internal:1234/v1 gesetzt und als API openai-completions konfiguriert
Die Docker-Compose-Konfiguration mountet models.json, das Arbeitsverzeichnis, die Pi-Konfiguration und das Sitzungsverzeichnis in den Container
Das Startskript verbindet das aktuelle Arbeitsverzeichnis mit dem Workspace des Containers und fügt bei Bedarf eine zusätzliche, sicherere Sandbox-Compose-Datei hinzu
Pi wird im aktiven Repository ausgeführt und startet Docker, kann dadurch aber Dateien oder Verzeichnisse auf dem physischen Datenträger nicht direkt löschen
Benutzerdefinierte Modell-json-Konfigurationen konnten in den Container übergeben werden und funktionierten in der Experimentierumgebung vergleichsweise gut

Verbleibende Grenzen

Lokale Modelle können bei der Inferenz noch immer langsam sein, die Kontextfenster sind klein, und der nutzbare Kontext ist durch die vorhandene Hardware begrenzt
Das Ökosystem ist dank Tools wie LM Studio und dem Use This Model Button von Hugging Face deutlich einfacher geworden
Frühe Releases leiden unter Problemen wie nicht passenden Prompt-Templates, doch solche Probleme werden normalerweise sehr schnell gepatcht
Es ist noch schwer, mit Sicherheit zu sagen, dass sie bereits direkt für die Entwicklung von Produktionssoftware bereit sind

Vorteile lokaler Modelle und Experimentiermöglichkeiten

Bei lokalen Modellen lässt sich fast alles einsehen, einschließlich des Token-Inferenzprozesses in Echtzeit
Der Ein- und Ausgabefluss von Tokens kann direkt überprüft werden
Es lässt sich beobachten, wie sich Änderungen am lokalen Kontextfenster positiv oder negativ auf die Leistung auswirken
Man kann sich damit beschäftigen, wie Tokens auf der GPU verarbeitet werden, und auch System-Prompts sowie Quantisierungseinstellungen verändern
Modelle lassen sich gegeneinander antreten, und auch Harness-seitige Einstellungen können verändert und beobachtet werden, wodurch die Experimentiermöglichkeiten weiter wachsen

7 Kommentare

syate 2026-06-18

„Durch die natürliche Größe der Arbeitspakete und weil kleine Modelle konkrete Anweisungen bevorzugen, versteht der Nutzer den Code am Ende viel detaillierter.
Das heißt nicht, dass lokale Modelle keine Projektstrukturen zusammenfassen oder Bugs finden können, sondern dass sie einen deutlich stärker eingreifenden Arbeitsstil belohnen.“

Im Kommentar gibt es einen beeindruckenden Punkt.
Dem stimme ich zu.

emptybynature 2026-06-17

Wenn man sagen will, dass lokale Modelle inzwischen wirklich brauchbar sind, müsste man ChatGPT wohl schon als superintelligent bezeichnen ... Lokale Modelle sind davon noch meilenweit entfernt. Nach meinem Maßstab kann man erst dann sagen, dass ein lokales Modell brauchbar ist, wenn man mit vier RTX 5090 ein Modell der Klasse 100B oder größer laufen lassen muss, damit es "wenigstens einigermaßen" brauchbar ist.

GN⁺ 2026-06-17

Lobste.rs-Meinungen

Ich möchte solche Tools in meinem aktuellen Workflow nicht unbedingt einsetzen, aber mein größter Einwand betrifft die Zentralisierung, und ich denke, dass sich deren Auswirkungen auch auf Bereiche wie Umwelt, Privatsphäre und Machtverteilung erstrecken
Deshalb ist es erfreulich, dass lokal hostbare Modelle tatsächlich besser werden
- Ich denke, dass es künftig wahrscheinlich in diese Richtung gehen wird. Niemand möchte alle eigenen Daten an einen Dienstanbieter schicken, und auch Preiserhöhungen oder die Frage, ob ein Modell überhaupt angeboten wird, hängen vollständig vom Anbieter ab
  Wie man am Fable-Vorfall bei Anthropic gesehen hat, ist die Gefahr real, sich selbst zu einem digitalen Leibeigenen zu machen
  Wenn lokale Modelle und Coding-Harnesses sich weiter verbessern, gibt es immer weniger Gründe, ein Modell von einem Anbieter zu mieten, selbst wenn die Gesamtleistung lokaler Modelle niedriger ist. Viele nutzen zum Beispiel DeepSeek statt Claude, weil es gut genug und viel billiger ist; und auch lokal wird ab einem gewissen Punkt wichtiger, ob das lokale Modell die Arbeit erledigt, als ob man ein besseres Modell mieten könnte
  Es gibt außerdem großes Potenzial für Anpassung und Tuning der Tools. Ich habe noch nicht viele Beispiele für LoRAs für bestimmte Sprachen gesehen, aber in begrenzten Domänen kann man Modelle deutlich effektiver machen, und auf dieser Stufe könnten sie sogar besser sein als riesige Allzweckmodelle
- Lokale Modelle sind auf interessante Weise anders, und manches daran kann ein Vorteil sein. Der Strombedarf für die Inferenz liegt ungefähr auf dem Niveau einer gehobenen Gaming-GPU, und selbst das nur während der Tokenerzeugung; typischerweise lässt sich das auf etwa 300 W begrenzen. Wenn man Code lesend schreibt, wird vielleicht nur rund 25 % eines Arbeitstags für Tokenerzeugung genutzt, sodass die Dauerlast eher bei 75 W liegt
  Der Stromverbrauch, um pro Jahr einige Modelle in lokaler Größe zu trainieren, könnte so gering sein, dass er im Hintergrundrauschen der Industriegesellschaft untergeht. Die Daten bleiben vollständig lokal, und man muss die Händler weniger anstacheln
  Lokale Modelle sind tendenziell dümmer, und genau das hält einen näher an der eigentlichen Arbeit. Bei Fable kann man sagen: „Fülle diese Straße mit Häusern“, und es spuckt massenhaft billige McMansions aus; bei Qwen3.6 27B wirkt eher eine Anweisung natürlich wie: „Streiche diese vier Räume.“ Wegen der natürlichen Größe der Arbeitspakete und der Vorliebe kleiner Modelle für konkrete Anweisungen versteht der Nutzer den Code viel genauer
  Das heißt nicht, dass lokale Modelle keine Projektstruktur zusammenfassen oder Bugs finden könnten, sondern dass sie einen viel praktischeren, stärker händischen Arbeitsstil belohnen. Fable ist das Modell, das uns wirklich das Gefühl gegeben hat, wir seien verloren, und es kann tatsächlich in Windeseile ein ganzes Projekt ausspucken. Diese „McMansions“ sehen auf den ersten Blick gut aus, aber das Dach ist undicht, das Fundament wackelt, und die Ausführung ist gerade nur gut genug, um sich zu verkaufen. Natürlich hat so etwas am Markt wahrscheinlich großen Erfolg, und selbst Fable an seinem schlechtesten Tag ist besser als vieles Enterprise-SaaS. Nur eben ohne Compliance und Sicherheit
  Deshalb halte ich lokale Modelle für interessante Werkzeuge, aber auf das Chaos, das die nächste Generation von Frontier-Modellen anrichten wird, freue ich mich wirklich nicht
Mich würde interessieren, wofür Leute in der Wissenschaft lokale Modelle einsetzen. qwen3-coder:30b war für LaTeX-Bearbeitung und zum Abfragen von Ergebnissen aus per OCR verarbeiteten Papers ganz ordentlich, aber ich frage mich, ob es noch andere Anwendungsfälle gibt
- Ich bin in der Wissenschaft. Agentisches Coding nutze ich nicht, und zum Schreiben verwende ich überhaupt keine LLMs. Ich habe sogar den Eindruck, dass die meisten Herausgeber das verbieten
  Jedes Mal, wenn ich es versucht habe, war ich sehr enttäuscht, und der Aufwand sowie die Fragilität beim Einrichten lokaler Inferenz-Pipelines sind hoch. Die GPU meines Laptops ist zu klein, daher muss ich einen gemeinsam genutzten Compute-Cluster verwenden
  Gelegentlich nutze ich ollama/qwen3-coder oder duck.ai. Etwa wenn mir keine Schlüsselwörter einfallen, nach denen ich suchen müsste, um in einer unbekannten Sprache oder Bibliothek herauszufinden, wie man etwas macht, oder für sehr spezifische Aufgaben, mit denen ich wenig vertraut bin, etwa reguläre Ausdrücke oder SQL
- Ich nutze sie, um Entwürfe für Übersetzungen zu erstellen. Beim Korrigieren dieser Übersetzungen habe ich etliche Fehler in Unterrichtsmaterialien behoben, die ich zwar theoretisch auch ohne Übersetzung hätte entdecken können, in der Praxis aber nicht gesehen hatte. Besonders relevant ist das, wenn man in einem nicht einsprachigen Umfeld unterrichtet
  Ich nutze sie auch, um erste Entwürfe kleiner persönlicher Skripte oder Mini-Tools in einem Durchgang zu erzeugen, zum Beispiel einen Harness, der TikZ aus Übersetzungsanfragen ausschließt. Danach ist Debugging nötig, aber das macht viel mehr Spaß, als die langweiligen Teile selbst zu schreiben, die das LLM einigermaßen richtig hinbekommt. Eine Verifikationsstrategie ist noch wichtiger als bei handgeschriebenem Code und sollte idealerweise so aufgebaut sein, dass „verbleibende Bugs bei der Ausführung des Tools ziemlich deutlich sichtbar werden“
  Ehrlich gesagt war ich überrascht, dass Qwen3.6 gar nicht so schlecht darin ist, erste Lösungsentwürfe für standardmäßige Beweisübungen zu erstellen. Wenn man sie dann an den gewünschten Stil anpasst, kann es sich anfühlen wie Axtbrei oder Steinsuppe, aber einige Formeln bleiben womöglich bis zum Ende erhalten. Letztlich hängt es davon ab, wie langweilig die Aufgabe ist
- Im Wesentlichen nutze ich sie für Korrektorat, das über reine Rechtschreib- oder Grammatikprüfung hinausgeht. Oder um schnelle Skripte für die Datenanalyse zu schreiben, aber zur explorativen Nutzung wie Pilotexperimenten, nicht für die endgültige Analyse

kaboom45 2026-06-17

Auf einem PC mit DDR3 und i5-integrierter Grafik lasse ich qwen3.6 27b derzeit mit 1 Token pro Sekunde laufen.
Früher kamen selbst bei solcher Warterei nur ziemlich mangelhafte Ergebnisse heraus, aber inzwischen kommt immerhin etwas Nutzbares dabei heraus.
Die Leistung, für die vor 6 Monaten noch Größenordnungen von 80–120B nötig waren, hat sich so weit entwickelt, dass heute etwa 30B ausreichen, und ich denke, dass wir in etwa einem Jahr auch eine Code-Performance auf dem Niveau von opus4.8 und gpt5.5 bei 30B sehen könnten.
Dann werden auch lokale Modelle, die über einen Tag hinweg 50.000 bis 70.000 Token herauspressen, als Zweitoption durchaus eine Überlegung wert sein, davon bin ich überzeugt.

beoks 2026-06-17

Um lokale Modelle wirklich sinnvoll zu nutzen, braucht man entsprechend leistungsfähige Hardware, aber die ist auch sehr teuer. Wenn es also keinen besonderen Grund wie Sicherheit gibt, scheinen Abos oder API-Aufrufe derzeit noch das bessere Preis-Leistungs-Verhältnis zu haben.

kaydash 2026-06-17

Für Agenten geht es irgendwie noch, aber für Coding-Agenten eher nicht …