Qwen 3.6 27B ist der Sweet Spot für lokale Entwicklung

(quesma.com)

5 Punkte von GN⁺ 6 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Qwen 3.6 27B wirkt selbst für Nutzer, die lokalen Modellen skeptisch gegenüberstanden, als sinnvolle Option für allgemeine Aufgaben und wird als langsameres, aber leistungsstärkeres dense Modell gegenüber 35B A3B empfohlen
In Kreativ- und Coding-Tests zeigte sich die Stärke bei der Einhaltung von Vorgaben; in OpenCode wurde mit pnpm ein hexagonales Minesweeper als Node-Paket aus einem einzigen Prompt erzeugt
Mit llama.cpp und der 8-Bit-GGUF-Quantisierung von Hugging Face ist ein lokaler Betrieb möglich; mit MTP, GPU-Layer-Offloading, flash attention und 64k-Kontext lässt sich sogar eine Agent-Coding-Umgebung aufsetzen
Im Test auf einem Macbook Max M5 128GB erreichte Qwen3.6-27B 8-bit mit llama.cpp + MTP 32 tok/s, nutzte rund 42GB RAM und wurde trotz des schnelleren 35B A3B wegen der besseren Codequalität bevorzugt
Laut Artificial Analysis liegt Qwen3.6-27B mit 37 Punkten auf dem Niveau von Mitte 2025 wie GPT-5 / Claude Sonnet 4.5 und ist praktisch für sensible Daten, Offline-Arbeit und den Betrieb eigener Modelle, die nicht zurückgerufen werden können

Warum Qwen 3.6 27B empfohlen wird

Qwen 3.6 ist in zwei Varianten verfügbar
- Qwen 3.6 35B A3B: ein Mixture-of-Experts-Modell
- Qwen 3.6 27B: ein dense Modell, langsamer, aber die stärkere Option
Qwen 3.6 27B bekam oft Reaktionen in der Art von „liefert Leistung über seiner Gewichtsklasse“, ein Beispiel dafür ist Will it Mythos?
Beim lokalen Ausführen kann der Computer heiß werden, bietet dafür aber eine Leistung, die den Aufwand wert ist

Einfache Tests und Ergebnisse aus realer Arbeit

Als einfacher Smoke-Test wurde statt Simon Willisons „penguins on a bicycle“ Schreiben unter Einschränkungen verwendet
Bei der Bitte um ein achtzeiliges Gedicht über Zouk-Tanz und Quantenphysik setzte sich der Denkprozess zum Umgang mit Quantenvokabular und Reimschema natürlich fort
- Das zugehörige Gespräch steht im transcript
Als in OpenCode mit pnpm die Erstellung eines hexagonalen Minesweeper angefordert wurde, erzeugte das Modell mit nur einem Prompt ein korrektes Node-Paket
Qwen 3.6 35B A3B war schneller, folgte aber nicht der Anweisung, ein Paket zu erstellen, und setzte es stattdessen als einzelne index.html um
Auch bei allgemeinen Arbeitsaufgaben entstanden mit kurzen Prompts brauchbare Ergebnisse; Reaktionsfähigkeit und Defaults sind ebenfalls ordentlich
- Gemessen an Frontier-Modellen ist das nicht außergewöhnlich, für ein lokales Modell aber bereits praktisch nutzbar

Lokal ausführen mit llama.cpp

Das Ausführen lokaler Modelle ist mit ein paar CLI-Zeilen möglich; das empfohlene Tool ist llama.cpp
Ausgeführt wird ein quantisiertes Modell mit reduziertem Speicherbedarf von Hugging Face
- Beliebte Anbieter quantisierter Modelle sind unsloth und bartowski
- Das Basismodell liegt üblicherweise in BF16-Präzision vor
- 8-Bit-Quantisierung halbiert den Platzbedarf nahezu ohne spürbaren Qualitätsverlust
- Quantisierung mit weniger Bits macht das Modell kleiner und potenziell schneller, kostet aber Qualität
- Vergleiche für 27B gibt es im Reddit benchmark, für 35B A3B in der Hugging Face discussion
Beispiel zum Starten des Servers
```
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
```
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: lädt das Modell von Hugging Face und verwendet es bei späteren Starts wieder
- -m ~/models/Qwen3.6-27B-Q8_0.gguf: kann stattdessen verwendet werden, wenn die Modelldatei bereits vorhanden ist
- draft-mtp: beschleunigt mit multi-token prediction die Ausgabe, indem ein schnelles Modell das nächste Token vorhersagt
- -ngl 999: lädt alle Layer auf die GPU
- -fa on: aktiviert flash attention
- -c 65536: setzt die Kontextgröße auf 64k Token
- Der native Kontext von Qwen 3.6 27B beträgt 256k
- --port 8080: fixiert den Port zur Nutzung in anderen Setups
- Über http://127.0.0.1:8080 kann direkt gechattet werden

OpenCode-Konfiguration

Derselbe Server kann auch für vibe coding verwendet werden
In OpenCode wird dafür die folgende Konfiguration in ~/.config/opencode/opencode.jsonc ergänzt

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1";,
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

Ausführung für Terminal-Chat
- Wer nur im Terminal chatten will, kann statt llama-server auch llama-cli verwenden
```
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                -ngl 999 -fa on -c 65536
```

Leistung auf Apple Silicon

Die Testergebnisse sind in benching-local-llms-on-apple-silicon dokumentiert und wurden auf einem Macbook Max M5 128GB erhoben
Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
30 tok/s ist keine schlechte Geschwindigkeit und liegt im Bereich typischer Frontier-Modell-APIs
mlx-lm ist zwar auf Apple Silicon ausgerichtet, in diesem Test war llama.cpp jedoch schneller
Während der Ausführung lag die GPU-Auslastung bei 95 %, was auf eine effiziente Nutzung der verfügbaren Ressourcen hindeutet
Beide Varianten von Qwen 3.6 laufen innerhalb von 48GB gemeinsamem RAM auf Apple Silicon
Auf Consumer-Nvidia-RTX-Karten ist aggressivere Quantisierung nötig, die Inferenz läuft dafür schneller
- gfosco auf Hacker News berichtete, auf einer 5090 mit Q6_K-Quantisierung und Q4_0 KV bei 123k Kontext konstant 50 tok/s zu erreichen und in LM Studio etwa 28/32GB VRAM zu nutzen
35B A3B ist dreimal schneller, dennoch kann sich 27B lohnen, wenn die Qualität trotz nur eines Drittels der generierten Code-Menge höher ist

Vergleich mit bisherigen State-of-the-Art-Modellen

Im Punktevergleich von Artificial Analysis erreicht Qwen3.6-27B 37 Punkte
Die wichtigsten Einträge der Vergleichstabelle sind:
- Gemma 4 31B: 29 Punkte, Niveau Ende 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 Punkte, Niveau Anfang 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 Punkte, Niveau Mitte 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 Punkte, Niveau Ende 2025, GPT-5.2 / Claude Opus 4.5
Weitere Benchmarks stehen in den notes; die Gesamttendenz ist ähnlich
Gemma 4 31B wurde in den Vergleich aufgenommen, weil viele es als Standard für lokales Coding verwenden
Sowohl Benchmarks als auch Reaktionen online sprechen deutlich zugunsten von Qwen 3.6 27B gegenüber Gemma 4 31B
Allerdings ist bei den Quantisierungsbedingungen Vorsicht geboten
- 8-Bit-Quantisierung dürfte die Ergebnisse kaum stark beeinflussen
- DwarfStar4 verwendet für DeepSeek V4 Flash eine deutlich aggressivere Quantisierung mit 2–4 Bit und ist daher klar schlechter als das vollständige Modell
- Unter diesen Bedingungen wirkt Qwen 3.6 27B etwa gleich gut oder leicht besser als DwarfStar4
- Bei Projekten mit längerem Kontext könnte DS4 im Vorteil sein

Nächste Schritte beim Betrieb lokaler Modelle

Eigene Modelle direkt auszuführen wird zunehmend zu einer realistischen Option
Der Zustand proprietärer Frontier-Modelle könnte diesen Trend weiter beschleunigen
- Claude Fable 5 wird zurückgefahren
- Andere Frontier-Modelle laufen auf massiven Subventionen; für 100 Dollar im Monat werden Tokens im Wert von Tausenden Dollar verbraucht
Lokal betriebene Modelle lassen sich passend zum Bedarf feintunen und können extern nicht zurückgerufen werden
Unternehmen können lokale Modelle für proprietäre und sensible Daten nutzen
Privatpersonen können lokale Modelle für Offline-Projekte einsetzen oder in Situationen, in denen sie keine tief vertraulichen oder medizinischen Daten mit den USA oder China teilen möchten
Die Veröffentlichung von frontier-level open-weight GLM 5.2 beschleunigt den Trend lokaler Modelle zusätzlich
- Qwen 3.6 war ein Zwischenschritt, und auch GLM 5.2 kann lokal ausgeführt werden
- GLM 5.2 läuft nicht auf einem Macbook oder einer einzelnen RTX 5090, ist für Unternehmensbudgets aber noch tragbar
Es könnten Modelle erscheinen, die intelligenter sind als der aktuelle Stand der Technik und zugleich lokal, vielleicht sogar auf Smartphones, laufen
Aktuelle Modelle koppeln rohe Intelligenz und Faktenwissen in denselben Gewichten; künftige Modelle könnten Wissen stattdessen über Tool-Calling auslagern und beides trennen

1 Kommentare

GN⁺ 6 시간 전

Meinungen auf Hacker News

MacBook Pro M5 mit 128 GB RAM und qwen3.6 gefallen mir zwar, aber wenn man ernsthaft mit einem lokalen LLM programmieren will, sollte man dieses MacBook lieber nicht kaufen
Der Grund ist simpel: Die Finger werden heiß, und wegen des Lüfterlärms fühlt es sich an, als würde einem der Kopf platzen
Komplexe Aufgaben auf einem Laptop laufen zu lassen, den man tatsächlich benutzt, ist nicht realistisch; im Clamshell-Modus geht es zwar, aber während AI-Coding oder Agenten-Aufgaben ist das Gerät kaum anzufassen
Wenn man Qwen3.6 27B/35B ordentlich betreiben will, ist es besser, einen MacMini M4 mit 64 GB zu kaufen, ihn in den Keller oder zumindest ein paar Meter entfernt zu stellen und per LAN oder Tailscale darauf zuzugreifen; preislich liegt er außerdem bei fast nur 1/3 des MacBook Pro
- Aus demselben Grund habe ich mir einen normalen 32-GB-Laptop gekauft
  Ich weiß, wie laut und heiß es schon wird, wenn man auf einer Desktop-GPU nur relativ kleine Modelle wie Qwen 27B oder Gemma 4 31B laufen lässt
  Strix Halo hat einen großen Lüfter und ist daher nicht laut, wird aber heiß; die kleinen Lüfter eines Laptops müssen diese Hitze am Ende trotzdem irgendwie herausbekommen und können dann nur noch kreischen
  Die Idee eines Laptops, der überall Modelle ausführen kann, ist gut, aber das sollte eher die Aufgabe von Cloud-Modellen sein, und weil dabei nicht viele Daten hin und her gehen, ist das auch kein großes Problem
  Für Aufgaben, die Privatsphäre erfordern, kann man zu Hause auf großer Hardware ein selbst gehostetes Modell betreiben und per VPN darauf zugreifen
  Allerdings waren Modelle wie Gemma 4 12B QAT 4-bit, die auch auf 16-GB-Geräten oder Tablets gut laufen, für bestimmte Aufgaben sehr gut; als selbst gehostetes Vision-Modell für Klassifizierung, Identifikation und Labeling war es das beste, das ich getestet habe
  Prosa ist auch okay und Tool-Nutzung kann es recht ordentlich, aber in 7 GB passt nicht allzu viel Weltwissen, daher braucht man für Recherchen Suche, und zum Programmieren würde ich es über sehr einfachen Code hinaus nicht verwenden wollen
- In DwarfStar 4 kann man das Flag --power ausprobieren: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
- Wenn „die Finger brennen und einem wegen des Lärms der Kopf platzt“, könnte man doch einfach den Mac mini in ein anderes Zimmer stellen, oder?
  In den letzten etwa sechs Monaten habe ich Coding-Agenten auf dem Laptop im YOLO-Modus laufen lassen; das meiste war zwar nicht lokal, aber die Methode, es ohne Angst zu nutzen, war, dem Agenten einen eigenen Linux-Benutzer agent zu geben
  Der Agent darf sein Home-Verzeichnis /agent löschen, kann mein Home-Verzeichnis aber weder anfassen noch lesen
  Weil ich mich jedes Mal per sudo als dieser Benutzer anmelden musste, habe ich mir einen Alias gebaut; wenn es Probleme mit Rechten oder Ownership gab, habe ich sie mit einer Funktion behoben, die ich einmal am Tag ausführe
  Trotzdem war es umständlich, und wenn ich eine dedizierte Maschine gehabt hätte, hätte ich ihm vermutlich einfach root gegeben; zum Spaß habe ich Claude root auf einem 3-Dollar-VPS gegeben, und das läuft gut
  Nach ein paar Monaten Trial and Error habe ich am Ende also „kauf einfach einen Mac mini“ von Grund auf neu erfunden
- Als ich auf einem M4 Max lokale LLM-Arbeit mit pi ausprobiert habe, fühlte er sich heißer an als jedes MacBook, das ich bisher benutzt habe
  Selbst aus ein paar Zoll Entfernung war die Wärmestrahlung spürbar, und es fühlte sich noch heißer an als die Intel-MacBooks, die ich genutzt habe, also habe ich abgebrochen
  Wegen Lieferproblemen und Preiserhöhungen muss ich diesen Laptop womöglich zehn Jahre behalten, daher wollte ich ihn nicht ruinieren
- Genau so nutze ich es: Mini M4 Pro 64 GB zusammen mit qwen3.6
  Mein Gehör ist nicht besonders gut, aber den Lüfter hätte ich vermutlich gehört; ich habe ihn kein einziges Mal gehört und musste sogar nachschauen, ob überhaupt ein Lüfter verbaut ist
Der Beitrag basiert auf Erfahrungen mit Qwen 3.6 auf einem 128GB MacBook Pro
Zur Einordnung: Das 128GB MBP beginnt derzeit bei 6699 $ [0]
Manche werden diesen Aufpreis für mehr Privatsphäre gern zahlen, aber für ungefähr das Zehnfache der Kosten eines MacBook Neo bekommt man auch ziemlich viele Credits für OpenRouter oder APIs führender Forschungslabore
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
- Die Rechnung lässt sich schwer bestreiten, aber ich würde die Grenze nicht so ziehen
  Eine Maschine zu haben, auf der man ein ordentliches lokales LLM wie Gemma 4 12B laufen lassen kann, ist wirklich wertvoll
  Ich weiß nicht, wie viel ernsthaftes agentisches Coding ohne Aufsicht man tatsächlich auf einem MacBook machen wird, aber ohne selbst mit lokalen Modellen, llama.cpp, LM Studio und Ähnlichem herumgespielt zu haben, hätte ich dieses Feld nicht so verstanden
  Dieses Gebiet ist riesig, ermüdend und voller Fachjargon; mit über 50 kann man sich davon leicht überwältigt fühlen
  Erst als ich es auf einer gebrauchten Maschine selbst eingerichtet, die API-Aufrufe gesehen und die Begriffe verstanden hatte, wurde es für mich greifbar
  Das Neo ist zu klein, um diese Möglichkeit wirklich erfahrbar und verständlich zu machen
- Für alle Experimente mit Qwen 3.6 reichten 48GB Apple Silicon aus
  Mit aggressiverer Quantisierung könnte es meiner Meinung nach auch noch darunter gehen
  Wirtschaftlich ergibt es wenig Sinn, Modelle auf einem Laptop laufen zu lassen, und selbst bei reinen Stromkosten könnte es schwer sein, den Preis für in großem Maßstab generierte Tokens zu schlagen
  Trotzdem ist das ein Durchbruch, der das Spiel verändert
  Früher war solches Vibe Coding auf Consumer-Geräten nicht nur schwierig oder teuer, sondern schlicht unmöglich
- Das dichte Modell Qwen 3.6 27B lässt sich auch auf DGX Spark mit ähnlicher Leistung betreiben [1][2], der Preis liegt bei etwa 4000 $
  Das Asus Ascent GX10 kostet bei mehreren Händlern ebenfalls 3999 $
  Theoretisch könnte man mit zwei 3090-Karten auch 48GB VRAM erreichen, aber im Vergleich zu einem MacBook Pro oder GB10 braucht das viel Platz und erzeugt viel Wärme
  [1] https://x.com/MiaAI_lab/status/2070859135399182444
  [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
- Die genannten Modelle lassen sich mit 24GB oder mehr VRAM problemlos betreiben, und es gibt ähnliche Modelle, die auch mit 16GB VRAM gut laufen
  128GB sind hier also nicht zwingend erforderlich
- Tokens oder Credits sind weg, sobald man sie verbraucht hat, aber das MacBook bleibt
  Auf demselben MacBook kann man auch andere Modelle laufen lassen
  Wenn man sieht, wie viel Geld manche Leute monatlich in SaaS stecken, hat sich ein MacBook in manchen Fällen nach fünf Monaten amortisiert
  Und es geht hier nicht einfach nur um „Datenschutz“
  Wenn man Claude nutzt, schickt man im Grunde alles an Anthropic, was ziemlich verrückt ist
Es ist schwer zu sagen, dass die Beispiele „echte Arbeit“ widerspiegeln
Zumindest nicht das, was ich als echte Arbeit betrachte
Ein Zero-Shot-Neuprojekt hinzubekommen, ist auch für kleine Modelle vergleichsweise einfach
Weil nicht viel Kontext aufgebaut werden muss und sie leicht auf ähnliche Beispiele aus den Trainingsdaten zurückfallen können
Solange man sie nicht auffordert, etwas völlig Neues zu erfinden, stehen die Chancen recht gut, dass sie es halbwegs schaffen
Der eigentliche Test ist, ob sie in einer bestehenden Codebasis arbeiten können
In meinen begrenzten Experimenten war Qwen 3.5 bei einer Rust+React-App okay, bei einem C#-Monolithen weniger gut
Nicht unbrauchbar, aber so schlecht, dass ich nach 20 Minuten zu Claude zurückging; wenn ich den Zugang zu Cloud-Modellen verlieren und nur noch Qwen nutzen müsste, wäre ich ziemlich traurig
- Das hängt zwar nicht direkt mit der Aussage zusammen, dass „ein Zero-Shot-Neuprojekt auch für kleine Modelle vergleichsweise einfach ist“, aber früher gab es Zeiten, in denen man eine Woche brauchte, um einen einzigen Proof of Concept zum Laufen zu bringen, und solche Sätze wie reine Science-Fiction geklungen hätten
- Beim Bewerten kleiner Modelle wird unterschätzt, dass ihre Schwächen umso deutlicher werden, je weiter man sich von Standard-Beispielcode entfernt
  Qwen3.6 lieferte bei überall verbreiteten einfachen Apps für ein kleines Modell erstaunliche Ergebnisse
  Wenn man es bittet, eine React-TODO-App oder eine kleine Boilerplate-App mit beliebten Tools wie shadcn zu bauen, kommt etwas ziemlich Plausibles heraus
  Aber sobald ich die üblichen Aufgaben verließ und zu meinen eher nischigen Aufgaben überging, drehte es sich stundenlang im Kreis und lieferte am Ende ein frustrierend unbrauchbares Ergebnis
  Für einfache Refactorings oder kleine Aufgaben mit sehr klaren Anweisungen, bei denen es einem das Tippen abnimmt, ist es ziemlich gut
  Aber bei langen Kontext-Sessions oder Nischenthemen werden die Schwächen sehr deutlich
  Auch Quantisierung, die man oft nutzt, um auf kleinere Hardware zu passen, verschärft das Problem
  Online herrscht die Stimmung, dass 4-bit-Quantisierung nahezu verlustfrei sei und auch q8_0/q8_0-Key-Value-Cache-Quantisierung praktisch keinen Verlust bringe, aber in echten Projekten haben solche Quantisierungen die Leistung bei langem Kontext erheblich verschlechtert
- Ich habe pi und die frühere codex cli für Arbeitsentwicklung zusammen mit Qwen 3.6 27B mit 100k Kontext genutzt und war sehr überrascht, wie gut es funktioniert
  Es ist nicht perfekt, aber ausreichend, um meinen normalen Entwicklungsfluss zu beschleunigen; ich nutze es hauptsächlich zum Schreiben von Go und C#
- Es gibt einige Aufgaben, die mit Modellen der Gemma-4-12B-Klasse gut funktionieren
  Etwa ein großes Projekt so zu entwerfen, dass es aus kleinen Bibliotheken besteht, die jeweils unabhängig entwickelt und getestet werden können, alte Coding-Projekte aufzuräumen, READMEs hinzuzufügen, Code zu kommentieren oder anhand von Beispielen für eine neue API die API-Verwendungen zu aktualisieren
  Das sind alles kleine Aufgaben
  Bei großen Integrationsprojekten hilft die kommerzielle DeepSeek-v4-Pro-API sehr, weil sie sehr günstig ist und gute Ergebnisse liefert
- Meiner Erfahrung nach haben kleine Modelle schon bei grundlegenden Projektkonzepten Mühe, neue Projekte zu starten
  Es gibt zu viele Entscheidungen zu treffen, und darin sind sie nicht gut
  Bestehenden Code zu ändern ist viel einfacher, wenn man nicht erwartet, dass sie sich besonders clever anstellen
  Statt zu sagen „Füge Feature X hinzu“ und sie die Codebasis erkunden zu lassen, ist es besser, die relevanten Dateien vorzugeben und zu sagen: „Ziel ist, diesem Code Feature X hinzuzufügen, und dabei Richtlinie Y zu befolgen“
  Wenn der Mensch die schwierigsten Entscheidungen übernimmt, muss das Modell nur den Anweisungen folgen und innerhalb der Linien ausmalen
Wenn man dieses Modell offline auf einem MacBook Pro mit 48 GB Speicher laufen lässt, erledigt es die Aufgaben, ist aber natürlich langsamer als Claude oder Codex
Wenn ich sehe, wie jemand ein 128-GB-MBP für mehrere Tausend Dollar kauft, um ein Modell laufen zu lassen, das objektiv deutlich schlechter als der Stand der Technik ist, fühlt es sich an, als würde ich den Verstand verlieren
Für das Geld, das man für ein 128GB M5 MAX ausgibt, kann man hier auch ein neues Auto kaufen
Ich weiß nicht, was ich übersehe, und frage mich, ob Entwickler in anderen Ländern wirklich in so einer anderen Welt leben
Ich weiß, dass die absoluten Preise dort, wo ich lebe, sogar höher sind als in den USA, und deshalb fühlt es sich noch stärker so an
Wenn ein vernünftiger Mensch so etwas in einem anderen Land gekauft hätte, würde er es vermutlich verkaufen, sobald er hier ankommt, und Geld sparen
- Ich halte es für töricht, auf den Laptop-Formfaktor zu setzen
  Im vergangenen Herbst habe ich mir eine Workstation mit zwei gebrauchten 3090ern gebaut; ich habe jeweils 850 kanadische Dollar bezahlt, aber jetzt liegt der niedrigste Preis bei etwa 1200
  48 GB VRAM sind ziemlich vernünftig, und ich nutze Qwen 3.6 27B für verschiedene Aufgaben, bei denen aus Textkorpora Wissensgraphen erstellt und Schlussfolgerungen gezogen werden
  Ich habe es mit dem verglichen, was über OpenRouter möglich ist, und bei Token-Kosten von $0 ist lokales 27B Qwen schwer zu schlagen
  Es ist langsamer und macht das Büro ein paar Grad wärmer, aber niemand kann den Stecker ziehen, niemand schaut einem über die Schulter, und die Ergebnisse liegen auf einem ähnlichen Niveau wie bei den Spitzenmodellen
  Ich freue mich auf ein ähnlich großes Qwen 3.7
  Nach allem, was ich bisher gesehen habe, ist es ein großer Sprung gegenüber der vorherigen Version
- Ich verstehe nicht, warum Leute in dieser Preisklasse statt eines Desktops mit GPU ein Mac-Notebook kaufen
  Vielleicht wollen sie damit angeben, dass es tragbar ist
- In meinen Büchern ist es bereits ein Asset, das deutlich an Wert gewinnt, und wahrscheinlich kann ich es in den nächsten 7 bis 10 Jahren zum Kaufpreis weiterverkaufen
  Mit Apples monatlicher Ratenzahlung sind $5k über ein Jahr hinweg $416 pro Monat, ohne Zinsen
  Man kann Modelle auf DS4-Niveau und andere offene Modelle ohne Quantisierung laufen lassen, manchmal mehrere gleichzeitig
  Stell dir den Wert vor, wenn düstere Szenarien rund um einen Krieg um Taiwan bzw. im chinesischen Raum, weltweite Konnektivität oder die Zuverlässigkeit kommerzieller Modelle eintreten
  Es ist Ausrüstung, die zu anderen Zeitpunkten der Geschichte sehr schwer herzustellen wäre, und ich wünschte, ich hätte mehr davon gekauft
  Ich habe die Signale, Preistrends und Ausverkäufe in Echtzeit gesehen, und andere Leute mit ausreichenden Mitteln legen sich bestimmt ebenfalls Vorräte an
- Stimmt, für viele Menschen sind 6.000 Dollar Kleingeld
- Ja
  Bei euch verdienen die Leute eine Größenordnung weniger als Amerikaner
Es gibt oft die Aussage, dass Hardware für lokale Modelle teuer sei, aber wenn man sich nicht für Apple-Geräte interessiert, werden die ziemlich preiswert wirkenden Intel Arc Pro B50/B60/B70 kaum erwähnt
Ich habe kürzlich das B70-Modell mit 32 GB RAM für etwa 1200 $ gekauft, inklusive Umsatzsteuer und Zoll, bezogen auf einen Wohnsitz außerhalb der USA; in anderen Regionen könnte es günstiger sein
Die Speicherbandbreite beträgt 608 GB/s
Die M5 Max GPU mit 32 Kernen liegt bei 460 GB/s, die mit 40 Kernen bei 614 GB/s, und eine 3090 ist mit etwa 900 GB/s weiterhin schneller, aber man bekommt 32 GB VRAM deutlich günstiger als bei vergleichbaren Nvidia-Karten
Im Grunde bekommt man etwa ein Drittel der Bandbreite einer 5090 zu einem Drittel des Preises, aber mit denselben 32 GB VRAM; wenn man also größere quantisierte Modelle und etwas Kontext mit kleinem Budget betreiben will, ist das ein attraktiver Kompromiss
Ich erkunde lokale Modelle noch und will nicht 5000 bis 10000 $ fürs Testen ausgeben; wenn ich günstiger experimentieren kann, ist etwas langsamere Performance in Ordnung
Zuerst habe ich eine B50 mit 16 GB und 70 W TDP gekauft, um Intel-Karten in meinem Stack zu testen, und sie lief unter Ubuntu und Vulkan problemlos
Ich habe viele Beiträge gesehen, die sie als nervig und unbrauchbar beschreiben, aber meistens scheint es um SYCL zu gehen; SYCL wirkt auch nicht performanter als Vulkan, daher sehe ich keinen Grund, es unbedingt zu verwenden
Die B50 kostete inklusive Steuern und Zoll 370 $, und buchstäblich nach einem apt install der Vulkan-Bibliotheken lief sie mit dem Standard-xe-Treiber von 26.04 und dem Vulkan-Build von llama.cpp
Auch SR-IOV PF/VF funktioniert unter qemu/kvm ohne besondere Tricks, und seit dem Kauf hat fwupdmgr die Firmware zweimal aktualisiert, also scheint Intel diese Produkte tatsächlich unterstützen zu wollen
Der aktuelle Sweet Spot ist meiner Meinung nach eine Kombination aus zwei 3090ern, einem PCIe-4-Mainboard und 64–128 GB DDR4-RAM
Das lässt sich derzeit für etwa 3k $ zusammenstellen und betreibt Qwen 27B/35B mit int4 extrem schnell
Zur Info: Ich lasse gemma4 31B auf einer 5090 laufen, und das ist ziemlich hervorragend
Ich nutze QAT, MTP und 128k Kontext
Qwen 3.6 27B war ebenfalls gut, aber ich glaube, Gemma4 wird etwas unterschätzt
- Meine Erfahrung ist ähnlich
  Ich betreibe gemma4 31B auf einer 4090 mit llm.cpp und dem unsloth-Modell
  Ich nutze auch Qwen 3.6; Qwen ist schneller und eignet sich gut fürs Denken und Planen, während Gemma4 beim ersten Versuch deutlich bessere Codequalität erzeugt
  Für Rust, C++ und C# sind weniger Korrekturen nötig, bis ich das Gefühl habe, dass man es mergen kann
- Ich schaffe es nicht, Gemma4 dazu zu bringen, Turns sauber zu beenden
  Es bricht immer plötzlich ab oder erzeugt fehlerhafte Tool-Calls; vermutlich habe ich oMLX oder Opencode falsch konfiguriert
- Gut
  Auf einer 4080 Super wechsle ich zwischen Qwen 3.5 9B Q6_M und Gemma4 12B Q4_K_M
  Beide sind ähnlich schnell, und man kann sie gegenseitig ihre Pläne oder Änderungen prüfen lassen
  Bei kleinen Projekten sind sie ziemlich kompetent, und für etwas schwierigere Aufgaben kann ich auf eine bessere Quantisierung hochgehen
Bevor man einen Computer mit Unified Memory kauft, etwa DGX Spark, Mac oder Ryzen AI Max 395 / Strix Halo, sollte man wissen, dass Dense-Modelle auf solchen Geräten im Allgemeinen langsam sind
Dedizierte GPUs führen Dense-Modelle deutlich besser aus
Es lohnt sich, Benchmarks des Geräts zu suchen, das man kaufen will; und wenn man wirklich so ein Gerät möchte, ist es besser, Qwen 3.6 35B oder ein anderes sparsames MoE-Modell laufen zu lassen
Ich habe qwen 3.6 35b a3b auf einem M3 Max MacBook Pro 16 Zoll mit 64 GB RAM über opencode betrieben, und für lokale Planung und Coding war das sehr gut
Ehrlich gesagt frage ich mich manchmal, ob ich angesichts dessen, wie leistungsfähig 64 GB sind, nicht mit 128 GB zukunftssicherer hätte kaufen sollen
Andererseits bin ich wegen eines Modells, das nur etwas größer als qwen ist, bisher auch noch nicht an eine Grenze gestoßen
- Ich lasse Qwen 3.6 35B A3b auch auf einem Windows-Laptop laufen, und mit 64 GB RAM plus 4-GB-GPU ist es zumindest erträglich
  Es ist nicht schnell, nur ein paar Tokens pro Sekunde, langsamer als Lesegeschwindigkeit, aber man kann ihm eine Aufgabe geben und später zurückkommen
  Das ist ein 600-$-Laptop, den ich vor ein paar Jahren bei eBay gekauft habe, keine 6000-$-Maschine
  Ich frage mich, ob Macs mit Unified Memory oder riesige Desktop-GPUs mit 24 GB wirklich Dutzende bis Hunderte Tokens pro Sekunde liefern, entsprechend den 10- bis 20-fachen Kosten
- Mich würde interessieren, wie schnell die Antworten sind, gemessen in Tokens pro Sekunde
  Meiner Erfahrung nach belegen schon 20- bis 35-GB-Modelle plus Key-Value-Cache einen großen Teil der grundlegenden 64 GB; wenn man also Browser, Editor und Ähnliches weiter offen lassen will, hilft die volle Ausstattung mit 128 GB definitiv

Qwen 3.6 27B ist der Sweet Spot für lokale Entwicklung

Warum Qwen 3.6 27B empfohlen wird

Einfache Tests und Ergebnisse aus realer Arbeit

Lokal ausführen mit llama.cpp

Beispiel zum Starten des Servers

OpenCode-Konfiguration

Ausführung für Terminal-Chat

Leistung auf Apple Silicon

Vergleich mit bisherigen State-of-the-Art-Modellen

Nächste Schritte beim Betrieb lokaler Modelle

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News