- Qwen 3.6 27B wirkt selbst für Nutzer, die lokalen Modellen skeptisch gegenüberstanden, als sinnvolle Option für allgemeine Aufgaben und wird als langsameres, aber leistungsstärkeres dense Modell gegenüber 35B A3B empfohlen
- In Kreativ- und Coding-Tests zeigte sich die Stärke bei der Einhaltung von Vorgaben; in OpenCode wurde mit
pnpmein hexagonales Minesweeper als Node-Paket aus einem einzigen Prompt erzeugt - Mit
llama.cppund der 8-Bit-GGUF-Quantisierung von Hugging Face ist ein lokaler Betrieb möglich; mit MTP, GPU-Layer-Offloading, flash attention und 64k-Kontext lässt sich sogar eine Agent-Coding-Umgebung aufsetzen - Im Test auf einem Macbook Max M5 128GB erreichte Qwen3.6-27B 8-bit mit
llama.cpp + MTP32 tok/s, nutzte rund 42GB RAM und wurde trotz des schnelleren 35B A3B wegen der besseren Codequalität bevorzugt - Laut Artificial Analysis liegt Qwen3.6-27B mit 37 Punkten auf dem Niveau von Mitte 2025 wie GPT-5 / Claude Sonnet 4.5 und ist praktisch für sensible Daten, Offline-Arbeit und den Betrieb eigener Modelle, die nicht zurückgerufen werden können
Warum Qwen 3.6 27B empfohlen wird
- Qwen 3.6 ist in zwei Varianten verfügbar
- Qwen 3.6 35B A3B: ein Mixture-of-Experts-Modell
- Qwen 3.6 27B: ein dense Modell, langsamer, aber die stärkere Option
- Qwen 3.6 27B bekam oft Reaktionen in der Art von „liefert Leistung über seiner Gewichtsklasse“, ein Beispiel dafür ist Will it Mythos?
- Beim lokalen Ausführen kann der Computer heiß werden, bietet dafür aber eine Leistung, die den Aufwand wert ist
Einfache Tests und Ergebnisse aus realer Arbeit
- Als einfacher Smoke-Test wurde statt Simon Willisons „penguins on a bicycle“ Schreiben unter Einschränkungen verwendet
- Bei der Bitte um ein achtzeiliges Gedicht über Zouk-Tanz und Quantenphysik setzte sich der Denkprozess zum Umgang mit Quantenvokabular und Reimschema natürlich fort
- Das zugehörige Gespräch steht im transcript
- Als in OpenCode mit
pnpmdie Erstellung eines hexagonalen Minesweeper angefordert wurde, erzeugte das Modell mit nur einem Prompt ein korrektes Node-Paket - Qwen 3.6 35B A3B war schneller, folgte aber nicht der Anweisung, ein Paket zu erstellen, und setzte es stattdessen als einzelne
index.htmlum - Auch bei allgemeinen Arbeitsaufgaben entstanden mit kurzen Prompts brauchbare Ergebnisse; Reaktionsfähigkeit und Defaults sind ebenfalls ordentlich
- Gemessen an Frontier-Modellen ist das nicht außergewöhnlich, für ein lokales Modell aber bereits praktisch nutzbar
Lokal ausführen mit llama.cpp
-
Das Ausführen lokaler Modelle ist mit ein paar CLI-Zeilen möglich; das empfohlene Tool ist llama.cpp
-
Ausgeführt wird ein quantisiertes Modell mit reduziertem Speicherbedarf von Hugging Face
- Beliebte Anbieter quantisierter Modelle sind unsloth und bartowski
- Das Basismodell liegt üblicherweise in
BF16-Präzision vor - 8-Bit-Quantisierung halbiert den Platzbedarf nahezu ohne spürbaren Qualitätsverlust
- Quantisierung mit weniger Bits macht das Modell kleiner und potenziell schneller, kostet aber Qualität
- Vergleiche für 27B gibt es im Reddit benchmark, für 35B A3B in der Hugging Face discussion
-
Beispiel zum Starten des Servers
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: lädt das Modell von Hugging Face und verwendet es bei späteren Starts wieder-m ~/models/Qwen3.6-27B-Q8_0.gguf: kann stattdessen verwendet werden, wenn die Modelldatei bereits vorhanden istdraft-mtp: beschleunigt mit multi-token prediction die Ausgabe, indem ein schnelles Modell das nächste Token vorhersagt-ngl 999: lädt alle Layer auf die GPU-fa on: aktiviert flash attention-c 65536: setzt die Kontextgröße auf 64k Token- Der native Kontext von Qwen 3.6 27B beträgt 256k
--port 8080: fixiert den Port zur Nutzung in anderen Setups- Über
http://127.0.0.1:8080kann direkt gechattet werden
-
OpenCode-Konfiguration
- Derselbe Server kann auch für vibe coding verwendet werden
- In OpenCode wird dafür die folgende Konfiguration in
~/.config/opencode/opencode.jsoncergänzt
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
Ausführung für Terminal-Chat
- Wer nur im Terminal chatten will, kann statt
llama-serverauchllama-cliverwenden
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - Wer nur im Terminal chatten will, kann statt
Leistung auf Apple Silicon
- Die Testergebnisse sind in benching-local-llms-on-apple-silicon dokumentiert und wurden auf einem Macbook Max M5 128GB erhoben
- Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
- Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
- 30 tok/s ist keine schlechte Geschwindigkeit und liegt im Bereich typischer Frontier-Modell-APIs
- mlx-lm ist zwar auf Apple Silicon ausgerichtet, in diesem Test war llama.cpp jedoch schneller
- Während der Ausführung lag die GPU-Auslastung bei 95 %, was auf eine effiziente Nutzung der verfügbaren Ressourcen hindeutet
- Beide Varianten von Qwen 3.6 laufen innerhalb von 48GB gemeinsamem RAM auf Apple Silicon
- Auf Consumer-Nvidia-RTX-Karten ist aggressivere Quantisierung nötig, die Inferenz läuft dafür schneller
- gfosco auf Hacker News berichtete, auf einer 5090 mit Q6_K-Quantisierung und Q4_0 KV bei 123k Kontext konstant 50 tok/s zu erreichen und in LM Studio etwa 28/32GB VRAM zu nutzen
- 35B A3B ist dreimal schneller, dennoch kann sich 27B lohnen, wenn die Qualität trotz nur eines Drittels der generierten Code-Menge höher ist
Vergleich mit bisherigen State-of-the-Art-Modellen
- Im Punktevergleich von Artificial Analysis erreicht Qwen3.6-27B 37 Punkte
- Die wichtigsten Einträge der Vergleichstabelle sind:
- Gemma 4 31B: 29 Punkte, Niveau Ende 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 Punkte, Niveau Anfang 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 Punkte, Niveau Mitte 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 Punkte, Niveau Ende 2025, GPT-5.2 / Claude Opus 4.5
- Weitere Benchmarks stehen in den notes; die Gesamttendenz ist ähnlich
- Gemma 4 31B wurde in den Vergleich aufgenommen, weil viele es als Standard für lokales Coding verwenden
- Sowohl Benchmarks als auch Reaktionen online sprechen deutlich zugunsten von Qwen 3.6 27B gegenüber Gemma 4 31B
- Allerdings ist bei den Quantisierungsbedingungen Vorsicht geboten
- 8-Bit-Quantisierung dürfte die Ergebnisse kaum stark beeinflussen
- DwarfStar4 verwendet für DeepSeek V4 Flash eine deutlich aggressivere Quantisierung mit 2–4 Bit und ist daher klar schlechter als das vollständige Modell
- Unter diesen Bedingungen wirkt Qwen 3.6 27B etwa gleich gut oder leicht besser als DwarfStar4
- Bei Projekten mit längerem Kontext könnte DS4 im Vorteil sein
Nächste Schritte beim Betrieb lokaler Modelle
- Eigene Modelle direkt auszuführen wird zunehmend zu einer realistischen Option
- Der Zustand proprietärer Frontier-Modelle könnte diesen Trend weiter beschleunigen
- Claude Fable 5 wird zurückgefahren
- Andere Frontier-Modelle laufen auf massiven Subventionen; für 100 Dollar im Monat werden Tokens im Wert von Tausenden Dollar verbraucht
- Lokal betriebene Modelle lassen sich passend zum Bedarf feintunen und können extern nicht zurückgerufen werden
- Unternehmen können lokale Modelle für proprietäre und sensible Daten nutzen
- Privatpersonen können lokale Modelle für Offline-Projekte einsetzen oder in Situationen, in denen sie keine tief vertraulichen oder medizinischen Daten mit den USA oder China teilen möchten
- Die Veröffentlichung von frontier-level open-weight GLM 5.2 beschleunigt den Trend lokaler Modelle zusätzlich
- Qwen 3.6 war ein Zwischenschritt, und auch GLM 5.2 kann lokal ausgeführt werden
- GLM 5.2 läuft nicht auf einem Macbook oder einer einzelnen RTX 5090, ist für Unternehmensbudgets aber noch tragbar
- Es könnten Modelle erscheinen, die intelligenter sind als der aktuelle Stand der Technik und zugleich lokal, vielleicht sogar auf Smartphones, laufen
- Aktuelle Modelle koppeln rohe Intelligenz und Faktenwissen in denselben Gewichten; künftige Modelle könnten Wissen stattdessen über Tool-Calling auslagern und beides trennen
1 Kommentare
Meinungen auf Hacker News
MacBook Pro M5 mit 128 GB RAM und qwen3.6 gefallen mir zwar, aber wenn man ernsthaft mit einem lokalen LLM programmieren will, sollte man dieses MacBook lieber nicht kaufen
Der Grund ist simpel: Die Finger werden heiß, und wegen des Lüfterlärms fühlt es sich an, als würde einem der Kopf platzen
Komplexe Aufgaben auf einem Laptop laufen zu lassen, den man tatsächlich benutzt, ist nicht realistisch; im Clamshell-Modus geht es zwar, aber während AI-Coding oder Agenten-Aufgaben ist das Gerät kaum anzufassen
Wenn man Qwen3.6 27B/35B ordentlich betreiben will, ist es besser, einen MacMini M4 mit 64 GB zu kaufen, ihn in den Keller oder zumindest ein paar Meter entfernt zu stellen und per LAN oder Tailscale darauf zuzugreifen; preislich liegt er außerdem bei fast nur 1/3 des MacBook Pro
Ich weiß, wie laut und heiß es schon wird, wenn man auf einer Desktop-GPU nur relativ kleine Modelle wie Qwen 27B oder Gemma 4 31B laufen lässt
Strix Halo hat einen großen Lüfter und ist daher nicht laut, wird aber heiß; die kleinen Lüfter eines Laptops müssen diese Hitze am Ende trotzdem irgendwie herausbekommen und können dann nur noch kreischen
Die Idee eines Laptops, der überall Modelle ausführen kann, ist gut, aber das sollte eher die Aufgabe von Cloud-Modellen sein, und weil dabei nicht viele Daten hin und her gehen, ist das auch kein großes Problem
Für Aufgaben, die Privatsphäre erfordern, kann man zu Hause auf großer Hardware ein selbst gehostetes Modell betreiben und per VPN darauf zugreifen
Allerdings waren Modelle wie Gemma 4 12B QAT 4-bit, die auch auf 16-GB-Geräten oder Tablets gut laufen, für bestimmte Aufgaben sehr gut; als selbst gehostetes Vision-Modell für Klassifizierung, Identifikation und Labeling war es das beste, das ich getestet habe
Prosa ist auch okay und Tool-Nutzung kann es recht ordentlich, aber in 7 GB passt nicht allzu viel Weltwissen, daher braucht man für Recherchen Suche, und zum Programmieren würde ich es über sehr einfachen Code hinaus nicht verwenden wollen
--powerausprobieren: https://github.com/antirez/ds4#reducing-heat-power-usage-and...In den letzten etwa sechs Monaten habe ich Coding-Agenten auf dem Laptop im YOLO-Modus laufen lassen; das meiste war zwar nicht lokal, aber die Methode, es ohne Angst zu nutzen, war, dem Agenten einen eigenen Linux-Benutzer
agentzu gebenDer Agent darf sein Home-Verzeichnis
/agentlöschen, kann mein Home-Verzeichnis aber weder anfassen noch lesenWeil ich mich jedes Mal per
sudoals dieser Benutzer anmelden musste, habe ich mir einen Alias gebaut; wenn es Probleme mit Rechten oder Ownership gab, habe ich sie mit einer Funktion behoben, die ich einmal am Tag ausführeTrotzdem war es umständlich, und wenn ich eine dedizierte Maschine gehabt hätte, hätte ich ihm vermutlich einfach root gegeben; zum Spaß habe ich Claude root auf einem 3-Dollar-VPS gegeben, und das läuft gut
Nach ein paar Monaten Trial and Error habe ich am Ende also „kauf einfach einen Mac mini“ von Grund auf neu erfunden
Selbst aus ein paar Zoll Entfernung war die Wärmestrahlung spürbar, und es fühlte sich noch heißer an als die Intel-MacBooks, die ich genutzt habe, also habe ich abgebrochen
Wegen Lieferproblemen und Preiserhöhungen muss ich diesen Laptop womöglich zehn Jahre behalten, daher wollte ich ihn nicht ruinieren
Mein Gehör ist nicht besonders gut, aber den Lüfter hätte ich vermutlich gehört; ich habe ihn kein einziges Mal gehört und musste sogar nachschauen, ob überhaupt ein Lüfter verbaut ist
Der Beitrag basiert auf Erfahrungen mit Qwen 3.6 auf einem 128GB MacBook Pro
Zur Einordnung: Das 128GB MBP beginnt derzeit bei 6699 $ [0]
Manche werden diesen Aufpreis für mehr Privatsphäre gern zahlen, aber für ungefähr das Zehnfache der Kosten eines MacBook Neo bekommt man auch ziemlich viele Credits für OpenRouter oder APIs führender Forschungslabore
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
Eine Maschine zu haben, auf der man ein ordentliches lokales LLM wie Gemma 4 12B laufen lassen kann, ist wirklich wertvoll
Ich weiß nicht, wie viel ernsthaftes agentisches Coding ohne Aufsicht man tatsächlich auf einem MacBook machen wird, aber ohne selbst mit lokalen Modellen, llama.cpp, LM Studio und Ähnlichem herumgespielt zu haben, hätte ich dieses Feld nicht so verstanden
Dieses Gebiet ist riesig, ermüdend und voller Fachjargon; mit über 50 kann man sich davon leicht überwältigt fühlen
Erst als ich es auf einer gebrauchten Maschine selbst eingerichtet, die API-Aufrufe gesehen und die Begriffe verstanden hatte, wurde es für mich greifbar
Das Neo ist zu klein, um diese Möglichkeit wirklich erfahrbar und verständlich zu machen
Mit aggressiverer Quantisierung könnte es meiner Meinung nach auch noch darunter gehen
Wirtschaftlich ergibt es wenig Sinn, Modelle auf einem Laptop laufen zu lassen, und selbst bei reinen Stromkosten könnte es schwer sein, den Preis für in großem Maßstab generierte Tokens zu schlagen
Trotzdem ist das ein Durchbruch, der das Spiel verändert
Früher war solches Vibe Coding auf Consumer-Geräten nicht nur schwierig oder teuer, sondern schlicht unmöglich
Das Asus Ascent GX10 kostet bei mehreren Händlern ebenfalls 3999 $
Theoretisch könnte man mit zwei 3090-Karten auch 48GB VRAM erreichen, aber im Vergleich zu einem MacBook Pro oder GB10 braucht das viel Platz und erzeugt viel Wärme
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
128GB sind hier also nicht zwingend erforderlich
Auf demselben MacBook kann man auch andere Modelle laufen lassen
Wenn man sieht, wie viel Geld manche Leute monatlich in SaaS stecken, hat sich ein MacBook in manchen Fällen nach fünf Monaten amortisiert
Und es geht hier nicht einfach nur um „Datenschutz“
Wenn man Claude nutzt, schickt man im Grunde alles an Anthropic, was ziemlich verrückt ist
Es ist schwer zu sagen, dass die Beispiele „echte Arbeit“ widerspiegeln
Zumindest nicht das, was ich als echte Arbeit betrachte
Ein Zero-Shot-Neuprojekt hinzubekommen, ist auch für kleine Modelle vergleichsweise einfach
Weil nicht viel Kontext aufgebaut werden muss und sie leicht auf ähnliche Beispiele aus den Trainingsdaten zurückfallen können
Solange man sie nicht auffordert, etwas völlig Neues zu erfinden, stehen die Chancen recht gut, dass sie es halbwegs schaffen
Der eigentliche Test ist, ob sie in einer bestehenden Codebasis arbeiten können
In meinen begrenzten Experimenten war Qwen 3.5 bei einer Rust+React-App okay, bei einem C#-Monolithen weniger gut
Nicht unbrauchbar, aber so schlecht, dass ich nach 20 Minuten zu Claude zurückging; wenn ich den Zugang zu Cloud-Modellen verlieren und nur noch Qwen nutzen müsste, wäre ich ziemlich traurig
Qwen3.6 lieferte bei überall verbreiteten einfachen Apps für ein kleines Modell erstaunliche Ergebnisse
Wenn man es bittet, eine React-TODO-App oder eine kleine Boilerplate-App mit beliebten Tools wie shadcn zu bauen, kommt etwas ziemlich Plausibles heraus
Aber sobald ich die üblichen Aufgaben verließ und zu meinen eher nischigen Aufgaben überging, drehte es sich stundenlang im Kreis und lieferte am Ende ein frustrierend unbrauchbares Ergebnis
Für einfache Refactorings oder kleine Aufgaben mit sehr klaren Anweisungen, bei denen es einem das Tippen abnimmt, ist es ziemlich gut
Aber bei langen Kontext-Sessions oder Nischenthemen werden die Schwächen sehr deutlich
Auch Quantisierung, die man oft nutzt, um auf kleinere Hardware zu passen, verschärft das Problem
Online herrscht die Stimmung, dass 4-bit-Quantisierung nahezu verlustfrei sei und auch
q8_0/q8_0-Key-Value-Cache-Quantisierung praktisch keinen Verlust bringe, aber in echten Projekten haben solche Quantisierungen die Leistung bei langem Kontext erheblich verschlechtertEs ist nicht perfekt, aber ausreichend, um meinen normalen Entwicklungsfluss zu beschleunigen; ich nutze es hauptsächlich zum Schreiben von Go und C#
Etwa ein großes Projekt so zu entwerfen, dass es aus kleinen Bibliotheken besteht, die jeweils unabhängig entwickelt und getestet werden können, alte Coding-Projekte aufzuräumen, READMEs hinzuzufügen, Code zu kommentieren oder anhand von Beispielen für eine neue API die API-Verwendungen zu aktualisieren
Das sind alles kleine Aufgaben
Bei großen Integrationsprojekten hilft die kommerzielle DeepSeek-v4-Pro-API sehr, weil sie sehr günstig ist und gute Ergebnisse liefert
Es gibt zu viele Entscheidungen zu treffen, und darin sind sie nicht gut
Bestehenden Code zu ändern ist viel einfacher, wenn man nicht erwartet, dass sie sich besonders clever anstellen
Statt zu sagen „Füge Feature X hinzu“ und sie die Codebasis erkunden zu lassen, ist es besser, die relevanten Dateien vorzugeben und zu sagen: „Ziel ist, diesem Code Feature X hinzuzufügen, und dabei Richtlinie Y zu befolgen“
Wenn der Mensch die schwierigsten Entscheidungen übernimmt, muss das Modell nur den Anweisungen folgen und innerhalb der Linien ausmalen
Wenn man dieses Modell offline auf einem MacBook Pro mit 48 GB Speicher laufen lässt, erledigt es die Aufgaben, ist aber natürlich langsamer als Claude oder Codex
Wenn ich sehe, wie jemand ein 128-GB-MBP für mehrere Tausend Dollar kauft, um ein Modell laufen zu lassen, das objektiv deutlich schlechter als der Stand der Technik ist, fühlt es sich an, als würde ich den Verstand verlieren
Für das Geld, das man für ein 128GB M5 MAX ausgibt, kann man hier auch ein neues Auto kaufen
Ich weiß nicht, was ich übersehe, und frage mich, ob Entwickler in anderen Ländern wirklich in so einer anderen Welt leben
Ich weiß, dass die absoluten Preise dort, wo ich lebe, sogar höher sind als in den USA, und deshalb fühlt es sich noch stärker so an
Wenn ein vernünftiger Mensch so etwas in einem anderen Land gekauft hätte, würde er es vermutlich verkaufen, sobald er hier ankommt, und Geld sparen
Im vergangenen Herbst habe ich mir eine Workstation mit zwei gebrauchten 3090ern gebaut; ich habe jeweils 850 kanadische Dollar bezahlt, aber jetzt liegt der niedrigste Preis bei etwa 1200
48 GB VRAM sind ziemlich vernünftig, und ich nutze Qwen 3.6 27B für verschiedene Aufgaben, bei denen aus Textkorpora Wissensgraphen erstellt und Schlussfolgerungen gezogen werden
Ich habe es mit dem verglichen, was über OpenRouter möglich ist, und bei Token-Kosten von $0 ist lokales 27B Qwen schwer zu schlagen
Es ist langsamer und macht das Büro ein paar Grad wärmer, aber niemand kann den Stecker ziehen, niemand schaut einem über die Schulter, und die Ergebnisse liegen auf einem ähnlichen Niveau wie bei den Spitzenmodellen
Ich freue mich auf ein ähnlich großes Qwen 3.7
Nach allem, was ich bisher gesehen habe, ist es ein großer Sprung gegenüber der vorherigen Version
Vielleicht wollen sie damit angeben, dass es tragbar ist
Mit Apples monatlicher Ratenzahlung sind $5k über ein Jahr hinweg $416 pro Monat, ohne Zinsen
Man kann Modelle auf DS4-Niveau und andere offene Modelle ohne Quantisierung laufen lassen, manchmal mehrere gleichzeitig
Stell dir den Wert vor, wenn düstere Szenarien rund um einen Krieg um Taiwan bzw. im chinesischen Raum, weltweite Konnektivität oder die Zuverlässigkeit kommerzieller Modelle eintreten
Es ist Ausrüstung, die zu anderen Zeitpunkten der Geschichte sehr schwer herzustellen wäre, und ich wünschte, ich hätte mehr davon gekauft
Ich habe die Signale, Preistrends und Ausverkäufe in Echtzeit gesehen, und andere Leute mit ausreichenden Mitteln legen sich bestimmt ebenfalls Vorräte an
Bei euch verdienen die Leute eine Größenordnung weniger als Amerikaner
Es gibt oft die Aussage, dass Hardware für lokale Modelle teuer sei, aber wenn man sich nicht für Apple-Geräte interessiert, werden die ziemlich preiswert wirkenden Intel Arc Pro B50/B60/B70 kaum erwähnt
Ich habe kürzlich das B70-Modell mit 32 GB RAM für etwa 1200 $ gekauft, inklusive Umsatzsteuer und Zoll, bezogen auf einen Wohnsitz außerhalb der USA; in anderen Regionen könnte es günstiger sein
Die Speicherbandbreite beträgt 608 GB/s
Die M5 Max GPU mit 32 Kernen liegt bei 460 GB/s, die mit 40 Kernen bei 614 GB/s, und eine 3090 ist mit etwa 900 GB/s weiterhin schneller, aber man bekommt 32 GB VRAM deutlich günstiger als bei vergleichbaren Nvidia-Karten
Im Grunde bekommt man etwa ein Drittel der Bandbreite einer 5090 zu einem Drittel des Preises, aber mit denselben 32 GB VRAM; wenn man also größere quantisierte Modelle und etwas Kontext mit kleinem Budget betreiben will, ist das ein attraktiver Kompromiss
Ich erkunde lokale Modelle noch und will nicht 5000 bis 10000 $ fürs Testen ausgeben; wenn ich günstiger experimentieren kann, ist etwas langsamere Performance in Ordnung
Zuerst habe ich eine B50 mit 16 GB und 70 W TDP gekauft, um Intel-Karten in meinem Stack zu testen, und sie lief unter Ubuntu und Vulkan problemlos
Ich habe viele Beiträge gesehen, die sie als nervig und unbrauchbar beschreiben, aber meistens scheint es um SYCL zu gehen; SYCL wirkt auch nicht performanter als Vulkan, daher sehe ich keinen Grund, es unbedingt zu verwenden
Die B50 kostete inklusive Steuern und Zoll 370 $, und buchstäblich nach einem
apt installder Vulkan-Bibliotheken lief sie mit dem Standard-xe-Treiber von 26.04 und dem Vulkan-Build von llama.cppAuch SR-IOV PF/VF funktioniert unter qemu/kvm ohne besondere Tricks, und seit dem Kauf hat fwupdmgr die Firmware zweimal aktualisiert, also scheint Intel diese Produkte tatsächlich unterstützen zu wollen
Der aktuelle Sweet Spot ist meiner Meinung nach eine Kombination aus zwei 3090ern, einem PCIe-4-Mainboard und 64–128 GB DDR4-RAM
Das lässt sich derzeit für etwa 3k $ zusammenstellen und betreibt Qwen 27B/35B mit int4 extrem schnell
Zur Info: Ich lasse gemma4 31B auf einer 5090 laufen, und das ist ziemlich hervorragend
Ich nutze QAT, MTP und 128k Kontext
Qwen 3.6 27B war ebenfalls gut, aber ich glaube, Gemma4 wird etwas unterschätzt
Ich betreibe gemma4 31B auf einer 4090 mit llm.cpp und dem unsloth-Modell
Ich nutze auch Qwen 3.6; Qwen ist schneller und eignet sich gut fürs Denken und Planen, während Gemma4 beim ersten Versuch deutlich bessere Codequalität erzeugt
Für Rust, C++ und C# sind weniger Korrekturen nötig, bis ich das Gefühl habe, dass man es mergen kann
Es bricht immer plötzlich ab oder erzeugt fehlerhafte Tool-Calls; vermutlich habe ich oMLX oder Opencode falsch konfiguriert
Auf einer 4080 Super wechsle ich zwischen Qwen 3.5 9B Q6_M und Gemma4 12B Q4_K_M
Beide sind ähnlich schnell, und man kann sie gegenseitig ihre Pläne oder Änderungen prüfen lassen
Bei kleinen Projekten sind sie ziemlich kompetent, und für etwas schwierigere Aufgaben kann ich auf eine bessere Quantisierung hochgehen
Bevor man einen Computer mit Unified Memory kauft, etwa DGX Spark, Mac oder Ryzen AI Max 395 / Strix Halo, sollte man wissen, dass Dense-Modelle auf solchen Geräten im Allgemeinen langsam sind
Dedizierte GPUs führen Dense-Modelle deutlich besser aus
Es lohnt sich, Benchmarks des Geräts zu suchen, das man kaufen will; und wenn man wirklich so ein Gerät möchte, ist es besser, Qwen 3.6 35B oder ein anderes sparsames MoE-Modell laufen zu lassen
Ich habe qwen 3.6 35b a3b auf einem M3 Max MacBook Pro 16 Zoll mit 64 GB RAM über opencode betrieben, und für lokale Planung und Coding war das sehr gut
Ehrlich gesagt frage ich mich manchmal, ob ich angesichts dessen, wie leistungsfähig 64 GB sind, nicht mit 128 GB zukunftssicherer hätte kaufen sollen
Andererseits bin ich wegen eines Modells, das nur etwas größer als qwen ist, bisher auch noch nicht an eine Grenze gestoßen
Es ist nicht schnell, nur ein paar Tokens pro Sekunde, langsamer als Lesegeschwindigkeit, aber man kann ihm eine Aufgabe geben und später zurückkommen
Das ist ein 600-$-Laptop, den ich vor ein paar Jahren bei eBay gekauft habe, keine 6000-$-Maschine
Ich frage mich, ob Macs mit Unified Memory oder riesige Desktop-GPUs mit 24 GB wirklich Dutzende bis Hunderte Tokens pro Sekunde liefern, entsprechend den 10- bis 20-fachen Kosten
Meiner Erfahrung nach belegen schon 20- bis 35-GB-Modelle plus Key-Value-Cache einen großen Teil der grundlegenden 64 GB; wenn man also Browser, Editor und Ähnliches weiter offen lassen will, hilft die volle Ausstattung mit 128 GB definitiv