5 Punkte von GN⁺ 6 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen 3.6 27B wirkt selbst für Nutzer, die lokalen Modellen skeptisch gegenüberstanden, als sinnvolle Option für allgemeine Aufgaben und wird als langsameres, aber leistungsstärkeres dense Modell gegenüber 35B A3B empfohlen
  • In Kreativ- und Coding-Tests zeigte sich die Stärke bei der Einhaltung von Vorgaben; in OpenCode wurde mit pnpm ein hexagonales Minesweeper als Node-Paket aus einem einzigen Prompt erzeugt
  • Mit llama.cpp und der 8-Bit-GGUF-Quantisierung von Hugging Face ist ein lokaler Betrieb möglich; mit MTP, GPU-Layer-Offloading, flash attention und 64k-Kontext lässt sich sogar eine Agent-Coding-Umgebung aufsetzen
  • Im Test auf einem Macbook Max M5 128GB erreichte Qwen3.6-27B 8-bit mit llama.cpp + MTP 32 tok/s, nutzte rund 42GB RAM und wurde trotz des schnelleren 35B A3B wegen der besseren Codequalität bevorzugt
  • Laut Artificial Analysis liegt Qwen3.6-27B mit 37 Punkten auf dem Niveau von Mitte 2025 wie GPT-5 / Claude Sonnet 4.5 und ist praktisch für sensible Daten, Offline-Arbeit und den Betrieb eigener Modelle, die nicht zurückgerufen werden können

Warum Qwen 3.6 27B empfohlen wird

  • Qwen 3.6 ist in zwei Varianten verfügbar
  • Qwen 3.6 27B bekam oft Reaktionen in der Art von „liefert Leistung über seiner Gewichtsklasse“, ein Beispiel dafür ist Will it Mythos?
  • Beim lokalen Ausführen kann der Computer heiß werden, bietet dafür aber eine Leistung, die den Aufwand wert ist

Einfache Tests und Ergebnisse aus realer Arbeit

  • Als einfacher Smoke-Test wurde statt Simon Willisons „penguins on a bicycle“ Schreiben unter Einschränkungen verwendet
  • Bei der Bitte um ein achtzeiliges Gedicht über Zouk-Tanz und Quantenphysik setzte sich der Denkprozess zum Umgang mit Quantenvokabular und Reimschema natürlich fort
  • Als in OpenCode mit pnpm die Erstellung eines hexagonalen Minesweeper angefordert wurde, erzeugte das Modell mit nur einem Prompt ein korrektes Node-Paket
  • Qwen 3.6 35B A3B war schneller, folgte aber nicht der Anweisung, ein Paket zu erstellen, und setzte es stattdessen als einzelne index.html um
  • Auch bei allgemeinen Arbeitsaufgaben entstanden mit kurzen Prompts brauchbare Ergebnisse; Reaktionsfähigkeit und Defaults sind ebenfalls ordentlich
    • Gemessen an Frontier-Modellen ist das nicht außergewöhnlich, für ein lokales Modell aber bereits praktisch nutzbar

Lokal ausführen mit llama.cpp

  • Das Ausführen lokaler Modelle ist mit ein paar CLI-Zeilen möglich; das empfohlene Tool ist llama.cpp

  • Ausgeführt wird ein quantisiertes Modell mit reduziertem Speicherbedarf von Hugging Face

    • Beliebte Anbieter quantisierter Modelle sind unsloth und bartowski
    • Das Basismodell liegt üblicherweise in BF16-Präzision vor
    • 8-Bit-Quantisierung halbiert den Platzbedarf nahezu ohne spürbaren Qualitätsverlust
    • Quantisierung mit weniger Bits macht das Modell kleiner und potenziell schneller, kostet aber Qualität
    • Vergleiche für 27B gibt es im Reddit benchmark, für 35B A3B in der Hugging Face discussion
  • Beispiel zum Starten des Servers

    llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
        --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
    
    • -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: lädt das Modell von Hugging Face und verwendet es bei späteren Starts wieder
    • -m ~/models/Qwen3.6-27B-Q8_0.gguf: kann stattdessen verwendet werden, wenn die Modelldatei bereits vorhanden ist
    • draft-mtp: beschleunigt mit multi-token prediction die Ausgabe, indem ein schnelles Modell das nächste Token vorhersagt
    • -ngl 999: lädt alle Layer auf die GPU
    • -fa on: aktiviert flash attention
    • -c 65536: setzt die Kontextgröße auf 64k Token
    • Der native Kontext von Qwen 3.6 27B beträgt 256k
    • --port 8080: fixiert den Port zur Nutzung in anderen Setups
    • Über http://127.0.0.1:8080 kann direkt gechattet werden
  • OpenCode-Konfiguration

    • Derselbe Server kann auch für vibe coding verwendet werden
    • In OpenCode wird dafür die folgende Konfiguration in ~/.config/opencode/opencode.jsonc ergänzt
    {
      "$schema": "https://opencode.ai/config.json";,
      "provider": {
        "llama": {
          "name": "llama.cpp (local)",
          "npm": "@ai-sdk/openai-compatible",
          "options": {
            "baseURL": "http://127.0.0.1:8080/v1";,
            "apiKey": "local"
          },
          "models": {
            "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
          }
        }
      },
      "model": "llama/qwen3.6-27b"
    }
    
  • Ausführung für Terminal-Chat

    • Wer nur im Terminal chatten will, kann statt llama-server auch llama-cli verwenden
    llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                    -ngl 999 -fa on -c 65536
    

Leistung auf Apple Silicon

  • Die Testergebnisse sind in benching-local-llms-on-apple-silicon dokumentiert und wurden auf einem Macbook Max M5 128GB erhoben
  • Qwen3.6-35B-A3B · 8-bit
    • MLX: 85 tok/s, 37GB RAM
    • llama.cpp: 93 tok/s, 44GB RAM
    • llama.cpp + MTP: 105 tok/s, 45GB RAM
  • Qwen3.6-27B · 8-bit
    • MLX: 17 tok/s, 28GB RAM
    • llama.cpp: 18 tok/s, 41GB RAM
    • llama.cpp + MTP: 32 tok/s, 42GB RAM
  • DeepSeek-V4-Flash · Q2–Q4
    • llama.cpp: 33 tok/s, 103GB RAM
  • 30 tok/s ist keine schlechte Geschwindigkeit und liegt im Bereich typischer Frontier-Modell-APIs
  • mlx-lm ist zwar auf Apple Silicon ausgerichtet, in diesem Test war llama.cpp jedoch schneller
  • Während der Ausführung lag die GPU-Auslastung bei 95 %, was auf eine effiziente Nutzung der verfügbaren Ressourcen hindeutet
  • Beide Varianten von Qwen 3.6 laufen innerhalb von 48GB gemeinsamem RAM auf Apple Silicon
  • Auf Consumer-Nvidia-RTX-Karten ist aggressivere Quantisierung nötig, die Inferenz läuft dafür schneller
    • gfosco auf Hacker News berichtete, auf einer 5090 mit Q6_K-Quantisierung und Q4_0 KV bei 123k Kontext konstant 50 tok/s zu erreichen und in LM Studio etwa 28/32GB VRAM zu nutzen
  • 35B A3B ist dreimal schneller, dennoch kann sich 27B lohnen, wenn die Qualität trotz nur eines Drittels der generierten Code-Menge höher ist

Vergleich mit bisherigen State-of-the-Art-Modellen

  • Im Punktevergleich von Artificial Analysis erreicht Qwen3.6-27B 37 Punkte
  • Die wichtigsten Einträge der Vergleichstabelle sind:
    • Gemma 4 31B: 29 Punkte, Niveau Ende 2024, o1 / Claude 3.5 Sonnet
    • Qwen3.6-35B-A3B: 32 Punkte, Niveau Anfang 2025, o3 / Claude 4 Sonnet
    • Qwen3.6-27B: 37 Punkte, Niveau Mitte 2025, GPT-5 / Claude Sonnet 4.5
    • DeepSeek-V4-Flash: 40 Punkte, Niveau Ende 2025, GPT-5.2 / Claude Opus 4.5
  • Weitere Benchmarks stehen in den notes; die Gesamttendenz ist ähnlich
  • Gemma 4 31B wurde in den Vergleich aufgenommen, weil viele es als Standard für lokales Coding verwenden
  • Sowohl Benchmarks als auch Reaktionen online sprechen deutlich zugunsten von Qwen 3.6 27B gegenüber Gemma 4 31B
  • Allerdings ist bei den Quantisierungsbedingungen Vorsicht geboten
    • 8-Bit-Quantisierung dürfte die Ergebnisse kaum stark beeinflussen
    • DwarfStar4 verwendet für DeepSeek V4 Flash eine deutlich aggressivere Quantisierung mit 2–4 Bit und ist daher klar schlechter als das vollständige Modell
    • Unter diesen Bedingungen wirkt Qwen 3.6 27B etwa gleich gut oder leicht besser als DwarfStar4
    • Bei Projekten mit längerem Kontext könnte DS4 im Vorteil sein

Nächste Schritte beim Betrieb lokaler Modelle

  • Eigene Modelle direkt auszuführen wird zunehmend zu einer realistischen Option
  • Der Zustand proprietärer Frontier-Modelle könnte diesen Trend weiter beschleunigen
    • Claude Fable 5 wird zurückgefahren
    • Andere Frontier-Modelle laufen auf massiven Subventionen; für 100 Dollar im Monat werden Tokens im Wert von Tausenden Dollar verbraucht
  • Lokal betriebene Modelle lassen sich passend zum Bedarf feintunen und können extern nicht zurückgerufen werden
  • Unternehmen können lokale Modelle für proprietäre und sensible Daten nutzen
  • Privatpersonen können lokale Modelle für Offline-Projekte einsetzen oder in Situationen, in denen sie keine tief vertraulichen oder medizinischen Daten mit den USA oder China teilen möchten
  • Die Veröffentlichung von frontier-level open-weight GLM 5.2 beschleunigt den Trend lokaler Modelle zusätzlich
    • Qwen 3.6 war ein Zwischenschritt, und auch GLM 5.2 kann lokal ausgeführt werden
    • GLM 5.2 läuft nicht auf einem Macbook oder einer einzelnen RTX 5090, ist für Unternehmensbudgets aber noch tragbar
  • Es könnten Modelle erscheinen, die intelligenter sind als der aktuelle Stand der Technik und zugleich lokal, vielleicht sogar auf Smartphones, laufen
  • Aktuelle Modelle koppeln rohe Intelligenz und Faktenwissen in denselben Gewichten; künftige Modelle könnten Wissen stattdessen über Tool-Calling auslagern und beides trennen

1 Kommentare

 
GN⁺ 6 시간 전
Meinungen auf Hacker News
  • MacBook Pro M5 mit 128 GB RAM und qwen3.6 gefallen mir zwar, aber wenn man ernsthaft mit einem lokalen LLM programmieren will, sollte man dieses MacBook lieber nicht kaufen
    Der Grund ist simpel: Die Finger werden heiß, und wegen des Lüfterlärms fühlt es sich an, als würde einem der Kopf platzen
    Komplexe Aufgaben auf einem Laptop laufen zu lassen, den man tatsächlich benutzt, ist nicht realistisch; im Clamshell-Modus geht es zwar, aber während AI-Coding oder Agenten-Aufgaben ist das Gerät kaum anzufassen
    Wenn man Qwen3.6 27B/35B ordentlich betreiben will, ist es besser, einen MacMini M4 mit 64 GB zu kaufen, ihn in den Keller oder zumindest ein paar Meter entfernt zu stellen und per LAN oder Tailscale darauf zuzugreifen; preislich liegt er außerdem bei fast nur 1/3 des MacBook Pro

    • Aus demselben Grund habe ich mir einen normalen 32-GB-Laptop gekauft
      Ich weiß, wie laut und heiß es schon wird, wenn man auf einer Desktop-GPU nur relativ kleine Modelle wie Qwen 27B oder Gemma 4 31B laufen lässt
      Strix Halo hat einen großen Lüfter und ist daher nicht laut, wird aber heiß; die kleinen Lüfter eines Laptops müssen diese Hitze am Ende trotzdem irgendwie herausbekommen und können dann nur noch kreischen
      Die Idee eines Laptops, der überall Modelle ausführen kann, ist gut, aber das sollte eher die Aufgabe von Cloud-Modellen sein, und weil dabei nicht viele Daten hin und her gehen, ist das auch kein großes Problem
      Für Aufgaben, die Privatsphäre erfordern, kann man zu Hause auf großer Hardware ein selbst gehostetes Modell betreiben und per VPN darauf zugreifen
      Allerdings waren Modelle wie Gemma 4 12B QAT 4-bit, die auch auf 16-GB-Geräten oder Tablets gut laufen, für bestimmte Aufgaben sehr gut; als selbst gehostetes Vision-Modell für Klassifizierung, Identifikation und Labeling war es das beste, das ich getestet habe
      Prosa ist auch okay und Tool-Nutzung kann es recht ordentlich, aber in 7 GB passt nicht allzu viel Weltwissen, daher braucht man für Recherchen Suche, und zum Programmieren würde ich es über sehr einfachen Code hinaus nicht verwenden wollen
    • In DwarfStar 4 kann man das Flag --power ausprobieren: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
    • Wenn „die Finger brennen und einem wegen des Lärms der Kopf platzt“, könnte man doch einfach den Mac mini in ein anderes Zimmer stellen, oder?
      In den letzten etwa sechs Monaten habe ich Coding-Agenten auf dem Laptop im YOLO-Modus laufen lassen; das meiste war zwar nicht lokal, aber die Methode, es ohne Angst zu nutzen, war, dem Agenten einen eigenen Linux-Benutzer agent zu geben
      Der Agent darf sein Home-Verzeichnis /agent löschen, kann mein Home-Verzeichnis aber weder anfassen noch lesen
      Weil ich mich jedes Mal per sudo als dieser Benutzer anmelden musste, habe ich mir einen Alias gebaut; wenn es Probleme mit Rechten oder Ownership gab, habe ich sie mit einer Funktion behoben, die ich einmal am Tag ausführe
      Trotzdem war es umständlich, und wenn ich eine dedizierte Maschine gehabt hätte, hätte ich ihm vermutlich einfach root gegeben; zum Spaß habe ich Claude root auf einem 3-Dollar-VPS gegeben, und das läuft gut
      Nach ein paar Monaten Trial and Error habe ich am Ende also „kauf einfach einen Mac mini“ von Grund auf neu erfunden
    • Als ich auf einem M4 Max lokale LLM-Arbeit mit pi ausprobiert habe, fühlte er sich heißer an als jedes MacBook, das ich bisher benutzt habe
      Selbst aus ein paar Zoll Entfernung war die Wärmestrahlung spürbar, und es fühlte sich noch heißer an als die Intel-MacBooks, die ich genutzt habe, also habe ich abgebrochen
      Wegen Lieferproblemen und Preiserhöhungen muss ich diesen Laptop womöglich zehn Jahre behalten, daher wollte ich ihn nicht ruinieren
    • Genau so nutze ich es: Mini M4 Pro 64 GB zusammen mit qwen3.6
      Mein Gehör ist nicht besonders gut, aber den Lüfter hätte ich vermutlich gehört; ich habe ihn kein einziges Mal gehört und musste sogar nachschauen, ob überhaupt ein Lüfter verbaut ist
  • Der Beitrag basiert auf Erfahrungen mit Qwen 3.6 auf einem 128GB MacBook Pro
    Zur Einordnung: Das 128GB MBP beginnt derzeit bei 6699 $ [0]
    Manche werden diesen Aufpreis für mehr Privatsphäre gern zahlen, aber für ungefähr das Zehnfache der Kosten eines MacBook Neo bekommt man auch ziemlich viele Credits für OpenRouter oder APIs führender Forschungslabore
    [0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...

    • Die Rechnung lässt sich schwer bestreiten, aber ich würde die Grenze nicht so ziehen
      Eine Maschine zu haben, auf der man ein ordentliches lokales LLM wie Gemma 4 12B laufen lassen kann, ist wirklich wertvoll
      Ich weiß nicht, wie viel ernsthaftes agentisches Coding ohne Aufsicht man tatsächlich auf einem MacBook machen wird, aber ohne selbst mit lokalen Modellen, llama.cpp, LM Studio und Ähnlichem herumgespielt zu haben, hätte ich dieses Feld nicht so verstanden
      Dieses Gebiet ist riesig, ermüdend und voller Fachjargon; mit über 50 kann man sich davon leicht überwältigt fühlen
      Erst als ich es auf einer gebrauchten Maschine selbst eingerichtet, die API-Aufrufe gesehen und die Begriffe verstanden hatte, wurde es für mich greifbar
      Das Neo ist zu klein, um diese Möglichkeit wirklich erfahrbar und verständlich zu machen
    • Für alle Experimente mit Qwen 3.6 reichten 48GB Apple Silicon aus
      Mit aggressiverer Quantisierung könnte es meiner Meinung nach auch noch darunter gehen
      Wirtschaftlich ergibt es wenig Sinn, Modelle auf einem Laptop laufen zu lassen, und selbst bei reinen Stromkosten könnte es schwer sein, den Preis für in großem Maßstab generierte Tokens zu schlagen
      Trotzdem ist das ein Durchbruch, der das Spiel verändert
      Früher war solches Vibe Coding auf Consumer-Geräten nicht nur schwierig oder teuer, sondern schlicht unmöglich
    • Das dichte Modell Qwen 3.6 27B lässt sich auch auf DGX Spark mit ähnlicher Leistung betreiben [1][2], der Preis liegt bei etwa 4000 $
      Das Asus Ascent GX10 kostet bei mehreren Händlern ebenfalls 3999 $
      Theoretisch könnte man mit zwei 3090-Karten auch 48GB VRAM erreichen, aber im Vergleich zu einem MacBook Pro oder GB10 braucht das viel Platz und erzeugt viel Wärme
      [1] https://x.com/MiaAI_lab/status/2070859135399182444
      [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
    • Die genannten Modelle lassen sich mit 24GB oder mehr VRAM problemlos betreiben, und es gibt ähnliche Modelle, die auch mit 16GB VRAM gut laufen
      128GB sind hier also nicht zwingend erforderlich
    • Tokens oder Credits sind weg, sobald man sie verbraucht hat, aber das MacBook bleibt
      Auf demselben MacBook kann man auch andere Modelle laufen lassen
      Wenn man sieht, wie viel Geld manche Leute monatlich in SaaS stecken, hat sich ein MacBook in manchen Fällen nach fünf Monaten amortisiert
      Und es geht hier nicht einfach nur um „Datenschutz“
      Wenn man Claude nutzt, schickt man im Grunde alles an Anthropic, was ziemlich verrückt ist
  • Es ist schwer zu sagen, dass die Beispiele „echte Arbeit“ widerspiegeln
    Zumindest nicht das, was ich als echte Arbeit betrachte
    Ein Zero-Shot-Neuprojekt hinzubekommen, ist auch für kleine Modelle vergleichsweise einfach
    Weil nicht viel Kontext aufgebaut werden muss und sie leicht auf ähnliche Beispiele aus den Trainingsdaten zurückfallen können
    Solange man sie nicht auffordert, etwas völlig Neues zu erfinden, stehen die Chancen recht gut, dass sie es halbwegs schaffen
    Der eigentliche Test ist, ob sie in einer bestehenden Codebasis arbeiten können
    In meinen begrenzten Experimenten war Qwen 3.5 bei einer Rust+React-App okay, bei einem C#-Monolithen weniger gut
    Nicht unbrauchbar, aber so schlecht, dass ich nach 20 Minuten zu Claude zurückging; wenn ich den Zugang zu Cloud-Modellen verlieren und nur noch Qwen nutzen müsste, wäre ich ziemlich traurig

    • Das hängt zwar nicht direkt mit der Aussage zusammen, dass „ein Zero-Shot-Neuprojekt auch für kleine Modelle vergleichsweise einfach ist“, aber früher gab es Zeiten, in denen man eine Woche brauchte, um einen einzigen Proof of Concept zum Laufen zu bringen, und solche Sätze wie reine Science-Fiction geklungen hätten
    • Beim Bewerten kleiner Modelle wird unterschätzt, dass ihre Schwächen umso deutlicher werden, je weiter man sich von Standard-Beispielcode entfernt
      Qwen3.6 lieferte bei überall verbreiteten einfachen Apps für ein kleines Modell erstaunliche Ergebnisse
      Wenn man es bittet, eine React-TODO-App oder eine kleine Boilerplate-App mit beliebten Tools wie shadcn zu bauen, kommt etwas ziemlich Plausibles heraus
      Aber sobald ich die üblichen Aufgaben verließ und zu meinen eher nischigen Aufgaben überging, drehte es sich stundenlang im Kreis und lieferte am Ende ein frustrierend unbrauchbares Ergebnis
      Für einfache Refactorings oder kleine Aufgaben mit sehr klaren Anweisungen, bei denen es einem das Tippen abnimmt, ist es ziemlich gut
      Aber bei langen Kontext-Sessions oder Nischenthemen werden die Schwächen sehr deutlich
      Auch Quantisierung, die man oft nutzt, um auf kleinere Hardware zu passen, verschärft das Problem
      Online herrscht die Stimmung, dass 4-bit-Quantisierung nahezu verlustfrei sei und auch q8_0/q8_0-Key-Value-Cache-Quantisierung praktisch keinen Verlust bringe, aber in echten Projekten haben solche Quantisierungen die Leistung bei langem Kontext erheblich verschlechtert
    • Ich habe pi und die frühere codex cli für Arbeitsentwicklung zusammen mit Qwen 3.6 27B mit 100k Kontext genutzt und war sehr überrascht, wie gut es funktioniert
      Es ist nicht perfekt, aber ausreichend, um meinen normalen Entwicklungsfluss zu beschleunigen; ich nutze es hauptsächlich zum Schreiben von Go und C#
    • Es gibt einige Aufgaben, die mit Modellen der Gemma-4-12B-Klasse gut funktionieren
      Etwa ein großes Projekt so zu entwerfen, dass es aus kleinen Bibliotheken besteht, die jeweils unabhängig entwickelt und getestet werden können, alte Coding-Projekte aufzuräumen, READMEs hinzuzufügen, Code zu kommentieren oder anhand von Beispielen für eine neue API die API-Verwendungen zu aktualisieren
      Das sind alles kleine Aufgaben
      Bei großen Integrationsprojekten hilft die kommerzielle DeepSeek-v4-Pro-API sehr, weil sie sehr günstig ist und gute Ergebnisse liefert
    • Meiner Erfahrung nach haben kleine Modelle schon bei grundlegenden Projektkonzepten Mühe, neue Projekte zu starten
      Es gibt zu viele Entscheidungen zu treffen, und darin sind sie nicht gut
      Bestehenden Code zu ändern ist viel einfacher, wenn man nicht erwartet, dass sie sich besonders clever anstellen
      Statt zu sagen „Füge Feature X hinzu“ und sie die Codebasis erkunden zu lassen, ist es besser, die relevanten Dateien vorzugeben und zu sagen: „Ziel ist, diesem Code Feature X hinzuzufügen, und dabei Richtlinie Y zu befolgen“
      Wenn der Mensch die schwierigsten Entscheidungen übernimmt, muss das Modell nur den Anweisungen folgen und innerhalb der Linien ausmalen
  • Wenn man dieses Modell offline auf einem MacBook Pro mit 48 GB Speicher laufen lässt, erledigt es die Aufgaben, ist aber natürlich langsamer als Claude oder Codex

  • Wenn ich sehe, wie jemand ein 128-GB-MBP für mehrere Tausend Dollar kauft, um ein Modell laufen zu lassen, das objektiv deutlich schlechter als der Stand der Technik ist, fühlt es sich an, als würde ich den Verstand verlieren
    Für das Geld, das man für ein 128GB M5 MAX ausgibt, kann man hier auch ein neues Auto kaufen
    Ich weiß nicht, was ich übersehe, und frage mich, ob Entwickler in anderen Ländern wirklich in so einer anderen Welt leben
    Ich weiß, dass die absoluten Preise dort, wo ich lebe, sogar höher sind als in den USA, und deshalb fühlt es sich noch stärker so an
    Wenn ein vernünftiger Mensch so etwas in einem anderen Land gekauft hätte, würde er es vermutlich verkaufen, sobald er hier ankommt, und Geld sparen

    • Ich halte es für töricht, auf den Laptop-Formfaktor zu setzen
      Im vergangenen Herbst habe ich mir eine Workstation mit zwei gebrauchten 3090ern gebaut; ich habe jeweils 850 kanadische Dollar bezahlt, aber jetzt liegt der niedrigste Preis bei etwa 1200
      48 GB VRAM sind ziemlich vernünftig, und ich nutze Qwen 3.6 27B für verschiedene Aufgaben, bei denen aus Textkorpora Wissensgraphen erstellt und Schlussfolgerungen gezogen werden
      Ich habe es mit dem verglichen, was über OpenRouter möglich ist, und bei Token-Kosten von $0 ist lokales 27B Qwen schwer zu schlagen
      Es ist langsamer und macht das Büro ein paar Grad wärmer, aber niemand kann den Stecker ziehen, niemand schaut einem über die Schulter, und die Ergebnisse liegen auf einem ähnlichen Niveau wie bei den Spitzenmodellen
      Ich freue mich auf ein ähnlich großes Qwen 3.7
      Nach allem, was ich bisher gesehen habe, ist es ein großer Sprung gegenüber der vorherigen Version
    • Ich verstehe nicht, warum Leute in dieser Preisklasse statt eines Desktops mit GPU ein Mac-Notebook kaufen
      Vielleicht wollen sie damit angeben, dass es tragbar ist
    • In meinen Büchern ist es bereits ein Asset, das deutlich an Wert gewinnt, und wahrscheinlich kann ich es in den nächsten 7 bis 10 Jahren zum Kaufpreis weiterverkaufen
      Mit Apples monatlicher Ratenzahlung sind $5k über ein Jahr hinweg $416 pro Monat, ohne Zinsen
      Man kann Modelle auf DS4-Niveau und andere offene Modelle ohne Quantisierung laufen lassen, manchmal mehrere gleichzeitig
      Stell dir den Wert vor, wenn düstere Szenarien rund um einen Krieg um Taiwan bzw. im chinesischen Raum, weltweite Konnektivität oder die Zuverlässigkeit kommerzieller Modelle eintreten
      Es ist Ausrüstung, die zu anderen Zeitpunkten der Geschichte sehr schwer herzustellen wäre, und ich wünschte, ich hätte mehr davon gekauft
      Ich habe die Signale, Preistrends und Ausverkäufe in Echtzeit gesehen, und andere Leute mit ausreichenden Mitteln legen sich bestimmt ebenfalls Vorräte an
    • Stimmt, für viele Menschen sind 6.000 Dollar Kleingeld
    • Ja
      Bei euch verdienen die Leute eine Größenordnung weniger als Amerikaner
  • Es gibt oft die Aussage, dass Hardware für lokale Modelle teuer sei, aber wenn man sich nicht für Apple-Geräte interessiert, werden die ziemlich preiswert wirkenden Intel Arc Pro B50/B60/B70 kaum erwähnt
    Ich habe kürzlich das B70-Modell mit 32 GB RAM für etwa 1200 $ gekauft, inklusive Umsatzsteuer und Zoll, bezogen auf einen Wohnsitz außerhalb der USA; in anderen Regionen könnte es günstiger sein
    Die Speicherbandbreite beträgt 608 GB/s
    Die M5 Max GPU mit 32 Kernen liegt bei 460 GB/s, die mit 40 Kernen bei 614 GB/s, und eine 3090 ist mit etwa 900 GB/s weiterhin schneller, aber man bekommt 32 GB VRAM deutlich günstiger als bei vergleichbaren Nvidia-Karten
    Im Grunde bekommt man etwa ein Drittel der Bandbreite einer 5090 zu einem Drittel des Preises, aber mit denselben 32 GB VRAM; wenn man also größere quantisierte Modelle und etwas Kontext mit kleinem Budget betreiben will, ist das ein attraktiver Kompromiss
    Ich erkunde lokale Modelle noch und will nicht 5000 bis 10000 $ fürs Testen ausgeben; wenn ich günstiger experimentieren kann, ist etwas langsamere Performance in Ordnung
    Zuerst habe ich eine B50 mit 16 GB und 70 W TDP gekauft, um Intel-Karten in meinem Stack zu testen, und sie lief unter Ubuntu und Vulkan problemlos
    Ich habe viele Beiträge gesehen, die sie als nervig und unbrauchbar beschreiben, aber meistens scheint es um SYCL zu gehen; SYCL wirkt auch nicht performanter als Vulkan, daher sehe ich keinen Grund, es unbedingt zu verwenden
    Die B50 kostete inklusive Steuern und Zoll 370 $, und buchstäblich nach einem apt install der Vulkan-Bibliotheken lief sie mit dem Standard-xe-Treiber von 26.04 und dem Vulkan-Build von llama.cpp
    Auch SR-IOV PF/VF funktioniert unter qemu/kvm ohne besondere Tricks, und seit dem Kauf hat fwupdmgr die Firmware zweimal aktualisiert, also scheint Intel diese Produkte tatsächlich unterstützen zu wollen

  • Der aktuelle Sweet Spot ist meiner Meinung nach eine Kombination aus zwei 3090ern, einem PCIe-4-Mainboard und 64–128 GB DDR4-RAM
    Das lässt sich derzeit für etwa 3k $ zusammenstellen und betreibt Qwen 27B/35B mit int4 extrem schnell

  • Zur Info: Ich lasse gemma4 31B auf einer 5090 laufen, und das ist ziemlich hervorragend
    Ich nutze QAT, MTP und 128k Kontext
    Qwen 3.6 27B war ebenfalls gut, aber ich glaube, Gemma4 wird etwas unterschätzt

    • Meine Erfahrung ist ähnlich
      Ich betreibe gemma4 31B auf einer 4090 mit llm.cpp und dem unsloth-Modell
      Ich nutze auch Qwen 3.6; Qwen ist schneller und eignet sich gut fürs Denken und Planen, während Gemma4 beim ersten Versuch deutlich bessere Codequalität erzeugt
      Für Rust, C++ und C# sind weniger Korrekturen nötig, bis ich das Gefühl habe, dass man es mergen kann
    • Ich schaffe es nicht, Gemma4 dazu zu bringen, Turns sauber zu beenden
      Es bricht immer plötzlich ab oder erzeugt fehlerhafte Tool-Calls; vermutlich habe ich oMLX oder Opencode falsch konfiguriert
    • Gut
      Auf einer 4080 Super wechsle ich zwischen Qwen 3.5 9B Q6_M und Gemma4 12B Q4_K_M
      Beide sind ähnlich schnell, und man kann sie gegenseitig ihre Pläne oder Änderungen prüfen lassen
      Bei kleinen Projekten sind sie ziemlich kompetent, und für etwas schwierigere Aufgaben kann ich auf eine bessere Quantisierung hochgehen
  • Bevor man einen Computer mit Unified Memory kauft, etwa DGX Spark, Mac oder Ryzen AI Max 395 / Strix Halo, sollte man wissen, dass Dense-Modelle auf solchen Geräten im Allgemeinen langsam sind
    Dedizierte GPUs führen Dense-Modelle deutlich besser aus
    Es lohnt sich, Benchmarks des Geräts zu suchen, das man kaufen will; und wenn man wirklich so ein Gerät möchte, ist es besser, Qwen 3.6 35B oder ein anderes sparsames MoE-Modell laufen zu lassen

  • Ich habe qwen 3.6 35b a3b auf einem M3 Max MacBook Pro 16 Zoll mit 64 GB RAM über opencode betrieben, und für lokale Planung und Coding war das sehr gut
    Ehrlich gesagt frage ich mich manchmal, ob ich angesichts dessen, wie leistungsfähig 64 GB sind, nicht mit 128 GB zukunftssicherer hätte kaufen sollen
    Andererseits bin ich wegen eines Modells, das nur etwas größer als qwen ist, bisher auch noch nicht an eine Grenze gestoßen

    • Ich lasse Qwen 3.6 35B A3b auch auf einem Windows-Laptop laufen, und mit 64 GB RAM plus 4-GB-GPU ist es zumindest erträglich
      Es ist nicht schnell, nur ein paar Tokens pro Sekunde, langsamer als Lesegeschwindigkeit, aber man kann ihm eine Aufgabe geben und später zurückkommen
      Das ist ein 600-$-Laptop, den ich vor ein paar Jahren bei eBay gekauft habe, keine 6000-$-Maschine
      Ich frage mich, ob Macs mit Unified Memory oder riesige Desktop-GPUs mit 24 GB wirklich Dutzende bis Hunderte Tokens pro Sekunde liefern, entsprechend den 10- bis 20-fachen Kosten
    • Mich würde interessieren, wie schnell die Antworten sind, gemessen in Tokens pro Sekunde
      Meiner Erfahrung nach belegen schon 20- bis 35-GB-Modelle plus Key-Value-Cache einen großen Teil der grundlegenden 64 GB; wenn man also Browser, Editor und Ähnliches weiter offen lassen will, hilft die volle Ausstattung mit 128 GB definitiv