22 Punkte von GN⁺ 2026-03-02 | 4 Kommentare | Auf WhatsApp teilen
  • Die Qwen3.5-Serie besteht aus vier großen Sprachmodellen mit 35B, 122B, 27B usw.; drei davon werden unter der Apache-2.0-Open-Source-Lizenz veröffentlicht
  • In Benchmarks übertrifft sie OpenAI GPT-5-mini und Anthropic Claude Sonnet 4.5; zugleich ist leistungsstarker Betrieb auch in lokalen GPU-Umgebungen möglich
  • Mit 4-Bit-Quantisierung wird die Genauigkeit nahezu beibehalten, während zugleich Kontextfenster mit mehr als 1 Million Tokens unterstützt werden; so ist auch auf Desktop-GPUs die Verarbeitung großer Datenmengen möglich
  • Durch die Kombination von Gated Delta Networks und einer Mixture-of-Experts-(MoE)-Struktur wurde die Effizienz gesteigert; über den „Thinking Mode“ werden Antworten nach einem internen Schlussfolgerungsprozess erzeugt
  • Unternehmen können damit datenschutzorientierte On-Premises-AI aufbauen und ohne Abhängigkeit von teuren Cloud-Diensten autonome Agenten entwickeln

Überblick über das Modell Qwen3.5-Medium

  • Die vom Qwen-AI-Team von Alibaba veröffentlichten Modelle der Qwen3.5-Medium-Serie umfassen vier LLMs mit Unterstützung für agentic tool calling
    • Öffentliche Modelle: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
    • Proprietäres Modell: Qwen3.5-Flash (nur über die Alibaba Cloud Model Studio API)
  • Die drei Open-Source-Modelle können bei Hugging Face und ModelScope heruntergeladen werden
  • Qwen3.5-Flash wird als kommerzielle API angeboten und hat im Vergleich zu westlichen Modellen niedrigere Betriebskosten

Leistung und technische Struktur

  • Die Qwen3.5-Modelle übertreffen OpenAI GPT-5-mini und Claude Sonnet 4.5 in Benchmarks
  • Auch nach der Quantisierung bleibt die Genauigkeit hoch; in einer lokalen GPU-Umgebung mit 32 GB VRAM werden Kontextfenster mit über 1 Million Tokens unterstützt
  • Durch 4-Bit-Gewichte und KV-Cache-Quantisierung sind verlustfreie Genauigkeit und die Verarbeitung großer Datenmengen möglich
  • Hybride Architektur: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
    • Von insgesamt 35 Milliarden Parametern werden nur 300 Millionen aktiviert
    • Die MoE-Schichten bestehen aus 256 Experten (8 Routing + 1 geteilter)
    • Genauigkeit bleibt auch bei 4-Bit-Komprimierung erhalten, was bei lokalem Deployment Speicher spart
  • Zur Unterstützung der Forschung wurde zusätzlich das Modell Qwen3.5-35B-A3B-Base veröffentlicht

Produktaufbau und Funktionen

  • Thinking Mode: Das Modell erzeugt vor der Antwort einen internen Schlussfolgerungsprozess in ``-Tags
  • Merkmale nach Modell
    • Qwen3.5-27B: auf Effizienz ausgelegt, unterstützt Kontexte mit mehr als 800.000 Tokens
    • Qwen3.5-Flash: 1 Million Tokens Basiskontext, offizielle Tools integriert
    • Qwen3.5-122B-A10B: für Server-GPUs mit 80 GB VRAM, unterstützt 1M+ Kontext
  • Benchmark-Ergebnisse: Qwen3.5-35B-A3B ist bei Wissen (MMMLU) und visuellem Schlussfolgern (MMMU-Pro) besser als Qwen3-235B, GPT-5-mini und Sonnet 4.5

Preise und API-Integration

  • Qwen3.5-Flash-API-Preise
    • Eingabe: $0.1 / 1 Million Tokens
    • Ausgabe: $0.4 / 1 Million Tokens
    • Cache-Erstellung: $0.125 / 1 Million Tokens
    • Cache-Lesen: $0.01 / 1 Million Tokens
  • Tarif für Tool Calling: Web Search $10/1.000 Aufrufe, Code Interpreter kostenlos (vorübergehend)
  • Im Vergleich zu wichtigen LLMs ist dies eine der günstigsten APIs
    • Beispiel: Claude Sonnet 4.5 kostet insgesamt $18/1 Million Tokens, GPT-5.2 $15.75, Qwen3.5-Flash $0.5

Einsatz in Unternehmen und Bedeutung

  • Mit der Veröffentlichung von Qwen3.5-Medium werden Feinabstimmung und Deployment von Modellen auf dem Niveau großer Forschungslabore auch für gewöhnliche Unternehmen möglich
  • In On-Premises-Umgebungen lassen sich große Dokument- und Videoanalysen ausführen, bei zugleich stärkerem Datenschutz
  • Die Mixture-of-Experts-Struktur kann innerhalb der internen Firewall betrieben werden, wodurch Datensouveränität erhalten bleibt
  • Mit Thinking Mode und Tool Calling ist der Aufbau autonomer AI-Agenten möglich
  • Erste Nutzer bewerten dies mit den Worten, man habe „die Lücke zu großen geschlossenen Modellen verkleinert“
  • Durch das effizienzorientierte Design sind Kostensenkung, stärkere Sicherheit und höhere operative Agilität bei der AI-Integration möglich

4 Kommentare

 
chcv0313 2026-03-02

Ich habe eine RTX Pro 6000 (96GB, effektiv 94GB), aber das 122B-Modell lässt sich mit ollama nicht laden. Ich vermute, das liegt daran, dass es ein Vision-Modell ist und an dem Teil, in dem der Vision-Transformer enthalten ist. Das GPT OSS 120b-Modell lässt sich dagegen problemlos laden.

 
ng0301 2026-03-02

Stimmt … sobald ein Vision-Encoder verwendet wird, braucht selbst ein 1B-Modell schon 9 GB VRAM.

 
kensin2 2026-03-02

Man muss ihn mit einem CUDA-basierten llama.cpp-Server betreiben, damit die Leistung stimmt.

 
GN⁺ 2026-03-02
Hacker-News-Kommentare
  • Open-Source-Modelle betreiben größtenteils Benchmark-Optimierung als Spiel
    Bei jedem neu veröffentlichten Modell heißt es, es sei auf dem Niveau des SOTA von vor ein paar Monaten, aber in der Praxis ist man beim tatsächlichen Einsatz oft enttäuscht
    Ich habe Qwen3-Coder-Next und Qwen3.5 ausprobiert, und an Sonnet 4.5 reichen sie nicht heran
    Wenn man die Ziele allerdings klar vorgibt und durch Tests Einschränkungen setzt, versuchen sie hartnäckig weiter und lösen das Problem am Ende doch
    Trotzdem ist das als Open-Source-Modell beeindruckend, und dass so etwas in einer self-hosted Umgebung möglich ist, ist erstaunlich
    Die Übertreibung, es sei auf Sonnet-4.5-Niveau, sollte man aber nicht glauben

    • Meiner Erfahrung nach sind einige Open-Source-Modelle wirklich stark und praktisch
      Besonders StepFun-3.5-flash funktioniert auch in komplexen Rust-Codebasen hervorragend
      Ich habe nichts mit StepFun zu tun, aber dem Team, das mit einer 196B/11B-Architektur eine solche Leistung erzielt hat, zolle ich großen Respekt
    • Modelle der „letzten Generation“ sind Open Source zwar noch immer überlegen, aber Modelle wie GLM-5 scheinen Pattern Matching gut zu erfassen
      Der GertLabs-Benchmark, der Modelle gegeneinander antreten lässt, ist schwer zu manipulieren und daher ziemlich vertrauenswürdig
    • Tatsächlich ist diese Benchmark-Optimierung etwas, das alle Modelle betreiben
      Bei Cloud-Modellen könnte es sogar noch stärker sein, weil dort auch die Runtime angepasst werden kann
    • Ich lasse Qwen 3.5 27B auf einer 4090 laufen, und so eine starke Coding-Performance habe ich bei einem lokalen Modell zum ersten Mal gesehen
      Früher waren sie kaum nutzbar, diesmal bin ich wirklich überrascht
    • Ich habe mich gefragt, ob es aktuelle Offline-/Private-Coding-Benchmarks gibt, und Apex Testing sieht ziemlich gut aus
      Wenn dort andere Tests als die Standardaufgaben verwendet werden, dürfte das auch robuster gegen Überoptimierung sein
  • Ich vergleiche gerade die Leistung lokaler Modelle, während ich sie auf einem MBP M3 Max 128G laufen lasse
    Opus 4.6 und Gemini Pro waren schnell und präzise, aber qwen3.5:35b-a3b lief 45 Minuten lang und lieferte eine ungenaue Antwort
    Die Lüfter waren so laut wie ein startendes Flugzeug
    Ich frage mich, ob man mit einem so langsamen Modell große Codebasen überhaupt bearbeiten kann

    • In Wahrheit gibt es Grenzen dabei, ein Open-Model mit 100B Parametern auf einem Laptop laufen zu lassen
      Cloud-Modelle laufen schließlich mit über 1T Parametern auf GPUs im Wert von mehreren Millionen Dollar
      Lokales Coding ist realistisch eher auf dem Niveau von „Boilerplate für Android-Apps erzeugen“
    • Opus und Gemini laufen auf H200-Klasse-GPUs im Wert von mehreren Millionen Dollar
      Lokale Modelle liegen noch immer etwa auf dem Niveau von zwei Generationen älterer Leistung, und wenn etwas wirklich Sonnet-4.5-Niveau hätte, wäre der Abstand zu Opus 4.6 groß
    • Die Branche sitzt einem logischen Fehlschluss auf, nämlich dass größere Modelle immer besser seien
      Tatsächlich können kleinere Modelle, die auf enge Probleme spezialisiert sind, besser funktionieren
      Unser Team lässt auf einem M2 mit 16 GB ein kleines Modell laufen, das sich ausschließlich auf Coding konzentriert, und wir halten es für besser als Sonnet 4.5
      Wir werden bald die Beta von rig.ai veröffentlichen
    • MacBooks haben starke thermische Einschränkungen und sind für lange Arbeitslasten ungeeignet
      Selbst auf Servern steigt die GPU-Leistung um 30 %, wenn man die Lüfterdrehzahl fest auf 100 % setzt
      Lokale Modelle eignen sich für leichte Aufgaben, Schweres verarbeitet man effizienter in der Cloud
    • qwen3.5-35b-a3b neigt dazu, bei kurzem Kontext viel Zeit auf Schlussfolgern zu verwenden
      Es gibt Berichte, dass es deutlich effizienter ist, wenn man einen langen System-Prompt oder Dateiinhalte mitgibt
  • Ich habe eine Anleitung geschrieben, um auf einem M1 MacBook Pro llama.cpp, OpenCode und Qwen3-Coder-30B-A3B-Instruct (GGUF, Q4_K_M-Quantisierung) einzurichten
    Die Installation war ziemlich knifflig, aber sie lässt sich auch auf neuere Modelle anwenden
    Link zur Installationsanleitung

    • Mit LM Studio lässt sich das mit einer Suche und einem Klick installieren, und es wird über eine OpenAI-kompatible API bereitgestellt
    • Ich habe dasselbe Setup auch auf einem Ryzen-Desktop mit 32 GB gemacht, und Qwen war am beeindruckendsten
      Dank der MoE-Architektur ist auch die Inferenzgeschwindigkeit hoch
      Ich habe mich für die Q4_K_M-Quantisierung entschieden und frage mich, ob das die beste Wahl ist
    • Ich warte darauf, dass ein brauchbares lokales Modell auch mit 16 GB RAM erscheint
    • Mich würde interessieren, wie hoch die Ausführungsgeschwindigkeit auf dem M1 ist
  • Ich habe angefangen, das Innere von LLMs zu studieren, und dabei gemerkt, dass float32 eine viel zu großzügige Präzision ist
    Über Blogposts habe ich Quantisierung gelernt und Claude die Genauigkeit von 1- bis 8-Bit-Quantisierung analysieren lassen
    4 Bit wirkten wie ein sweet spot, weil sie bei 99 % Ähnlichkeit fast ohne Verlust auskommen und nur halb so groß wie 8 Bit sind
    Es ist interessant zu sehen, dass auch echte Fachleute 4 Bit verwenden

    • Auf aktueller NVIDIA-Hardware wird sogar 4-Bit-Training unterstützt
      GPT-OSS-Modelle wurden im MXFP4-Format trainiert
      OCP-Standardisierungsdokument, MX-Format-Spezifikation
    • Forschung zu ternären Modellen ist ebenfalls spannend
      Die Berechnungen sind sehr schnell und cache-effizient, daher lohnt sich die Untersuchung
    • Ich würde dazu gern mehr lernen und frage mich, ob es empfehlenswerte Ressourcen gibt
    • Ich kann schwer einschätzen, welche kognitive Wirkung ein Präzisionsunterschied von 1 % in der Praxis hat
      Das System ist so sehr eine Blackbox, dass es intuitiv schwer zu verstehen ist
  • Ich habe Qwen3.5 122B mit LM Studio und Opencode laufen lassen, und es war ziemlich beeindruckend
    Selbst in einer M4-Max-/128-GB-Umgebung ist es nicht langsam und zeigt Codeanalyse auf Claude-Code-Niveau
    Es ist erstaunlich, wie weit sich vollständig lokale Alternativen entwickelt haben

  • Open Models werden immer besser, sind aber noch nicht auf dem Niveau von Sonnet 4.5
    In engen Domänen sind sie hervorragend, bei der Lösung mehrdeutiger Probleme aber schwach
    Qwen 3.5 war das beste OSS, das ich bisher benutzt habe, und es beginnt zunehmend, echte Intelligenz zu zeigen
    Ich lasse es kostenlos auf einer RTX 6000 Pro laufen, nutze aber häufiger Composer 1.5
    Trotzdem erwarte ich, dass noch in diesem Jahr ein lokales Modell auf GPT-5.2-Niveau erscheint

  • Es gibt viele überzogene Behauptungen
    Nur wenige haben die Modelle tatsächlich benutzt, und oft fehlt ein realistischer Maßstab
    Früher stand fast immer der Hinweis dabei, dass man „mehr als ein paar K Tokens nicht nutzen kann“

    • Ich habe mit Qwen 3.5 122B/a10B (q3, unsloth dynamic quant) eine RPN-Rechner-Web-App gebaut, die als erstes lokales Modell vollständig funktionierte
      Bei anderen Modellen war entweder die Stack-Implementierung falsch oder die UI chaotisch
      Claude Sonnet 4.6 hat dieses Problem ebenfalls korrekt gelöst, aber ansonsten ist fast alles gescheitert
    • Qwen3-Coder-30B-A3B-Instruct ist gut für IDE-Integration oder kleine Aufgaben auf Funktionsebene, hat aber Grenzen bei der Implementierung großer Features
    • Mit dem 35B-Modell habe ich eine Polars-basierte PCA-Implementierung in 10 Minuten fertiggestellt
      Früher halluzinierten Modelle an dieser Stelle immer pandas-Code, das ist also ein großer Fortschritt
  • Es fällt auf, dass Claude im SWE-Chart fehlt
    Das vermittelt den Eindruck, die Daten seien absichtlich manipuliert worden
    Schon allein diese Haltung lässt das Vertrauen schwinden

  • Ich freue mich auf den Tag, an dem ich das direkt lokal laufen lassen kann
    Ich möchte die Abhängigkeit von US-Diensten verringern

  • Ich frage mich, ob es in Europa Dienste gibt, mit denen man Open Models testen kann

    • Koyeb vermietet seit der Übernahme durch Mistral GPUs minutengenau, und man kann Modelle auch mit einem Klick deployen