Alibabas Open-Source-Modell Qwen3.5-Medium bietet lokal Leistung auf Sonnet-4.5-Niveau

(venturebeat.com)

22 Punkte von GN⁺ 2026-03-02 | 4 Kommentare | Auf WhatsApp teilen

Die Qwen3.5-Serie besteht aus vier großen Sprachmodellen mit 35B, 122B, 27B usw.; drei davon werden unter der Apache-2.0-Open-Source-Lizenz veröffentlicht
In Benchmarks übertrifft sie OpenAI GPT-5-mini und Anthropic Claude Sonnet 4.5; zugleich ist leistungsstarker Betrieb auch in lokalen GPU-Umgebungen möglich
Mit 4-Bit-Quantisierung wird die Genauigkeit nahezu beibehalten, während zugleich Kontextfenster mit mehr als 1 Million Tokens unterstützt werden; so ist auch auf Desktop-GPUs die Verarbeitung großer Datenmengen möglich
Durch die Kombination von Gated Delta Networks und einer Mixture-of-Experts-(MoE)-Struktur wurde die Effizienz gesteigert; über den „Thinking Mode“ werden Antworten nach einem internen Schlussfolgerungsprozess erzeugt
Unternehmen können damit datenschutzorientierte On-Premises-AI aufbauen und ohne Abhängigkeit von teuren Cloud-Diensten autonome Agenten entwickeln

Überblick über das Modell Qwen3.5-Medium

Die vom Qwen-AI-Team von Alibaba veröffentlichten Modelle der Qwen3.5-Medium-Serie umfassen vier LLMs mit Unterstützung für agentic tool calling
- Öffentliche Modelle: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Proprietäres Modell: Qwen3.5-Flash (nur über die Alibaba Cloud Model Studio API)
Die drei Open-Source-Modelle können bei Hugging Face und ModelScope heruntergeladen werden
Qwen3.5-Flash wird als kommerzielle API angeboten und hat im Vergleich zu westlichen Modellen niedrigere Betriebskosten

Leistung und technische Struktur

Die Qwen3.5-Modelle übertreffen OpenAI GPT-5-mini und Claude Sonnet 4.5 in Benchmarks
Auch nach der Quantisierung bleibt die Genauigkeit hoch; in einer lokalen GPU-Umgebung mit 32 GB VRAM werden Kontextfenster mit über 1 Million Tokens unterstützt
Durch 4-Bit-Gewichte und KV-Cache-Quantisierung sind verlustfreie Genauigkeit und die Verarbeitung großer Datenmengen möglich
Hybride Architektur: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Von insgesamt 35 Milliarden Parametern werden nur 300 Millionen aktiviert
- Die MoE-Schichten bestehen aus 256 Experten (8 Routing + 1 geteilter)
- Genauigkeit bleibt auch bei 4-Bit-Komprimierung erhalten, was bei lokalem Deployment Speicher spart
Zur Unterstützung der Forschung wurde zusätzlich das Modell Qwen3.5-35B-A3B-Base veröffentlicht

Produktaufbau und Funktionen

Thinking Mode: Das Modell erzeugt vor der Antwort einen internen Schlussfolgerungsprozess in ``-Tags
Merkmale nach Modell
- Qwen3.5-27B: auf Effizienz ausgelegt, unterstützt Kontexte mit mehr als 800.000 Tokens
- Qwen3.5-Flash: 1 Million Tokens Basiskontext, offizielle Tools integriert
- Qwen3.5-122B-A10B: für Server-GPUs mit 80 GB VRAM, unterstützt 1M+ Kontext
Benchmark-Ergebnisse: Qwen3.5-35B-A3B ist bei Wissen (MMMLU) und visuellem Schlussfolgern (MMMU-Pro) besser als Qwen3-235B, GPT-5-mini und Sonnet 4.5

Preise und API-Integration

Qwen3.5-Flash-API-Preise
- Eingabe: $0.1 / 1 Million Tokens
- Ausgabe: $0.4 / 1 Million Tokens
- Cache-Erstellung: $0.125 / 1 Million Tokens
- Cache-Lesen: $0.01 / 1 Million Tokens
Tarif für Tool Calling: Web Search $10/1.000 Aufrufe, Code Interpreter kostenlos (vorübergehend)
Im Vergleich zu wichtigen LLMs ist dies eine der günstigsten APIs
- Beispiel: Claude Sonnet 4.5 kostet insgesamt $18/1 Million Tokens, GPT-5.2 $15.75, Qwen3.5-Flash $0.5

Einsatz in Unternehmen und Bedeutung

Mit der Veröffentlichung von Qwen3.5-Medium werden Feinabstimmung und Deployment von Modellen auf dem Niveau großer Forschungslabore auch für gewöhnliche Unternehmen möglich
In On-Premises-Umgebungen lassen sich große Dokument- und Videoanalysen ausführen, bei zugleich stärkerem Datenschutz
Die Mixture-of-Experts-Struktur kann innerhalb der internen Firewall betrieben werden, wodurch Datensouveränität erhalten bleibt
Mit Thinking Mode und Tool Calling ist der Aufbau autonomer AI-Agenten möglich
Erste Nutzer bewerten dies mit den Worten, man habe „die Lücke zu großen geschlossenen Modellen verkleinert“
Durch das effizienzorientierte Design sind Kostensenkung, stärkere Sicherheit und höhere operative Agilität bei der AI-Integration möglich

4 Kommentare

chcv0313 2026-03-02

Ich habe eine RTX Pro 6000 (96GB, effektiv 94GB), aber das 122B-Modell lässt sich mit ollama nicht laden. Ich vermute, das liegt daran, dass es ein Vision-Modell ist und an dem Teil, in dem der Vision-Transformer enthalten ist. Das GPT OSS 120b-Modell lässt sich dagegen problemlos laden.

ng0301 2026-03-02

Stimmt … sobald ein Vision-Encoder verwendet wird, braucht selbst ein 1B-Modell schon 9 GB VRAM.

kensin2 2026-03-02

Man muss ihn mit einem CUDA-basierten llama.cpp-Server betreiben, damit die Leistung stimmt.

GN⁺ 2026-03-02

Hacker-News-Kommentare

Open-Source-Modelle betreiben größtenteils Benchmark-Optimierung als Spiel
Bei jedem neu veröffentlichten Modell heißt es, es sei auf dem Niveau des SOTA von vor ein paar Monaten, aber in der Praxis ist man beim tatsächlichen Einsatz oft enttäuscht
Ich habe Qwen3-Coder-Next und Qwen3.5 ausprobiert, und an Sonnet 4.5 reichen sie nicht heran
Wenn man die Ziele allerdings klar vorgibt und durch Tests Einschränkungen setzt, versuchen sie hartnäckig weiter und lösen das Problem am Ende doch
Trotzdem ist das als Open-Source-Modell beeindruckend, und dass so etwas in einer self-hosted Umgebung möglich ist, ist erstaunlich
Die Übertreibung, es sei auf Sonnet-4.5-Niveau, sollte man aber nicht glauben
- Meiner Erfahrung nach sind einige Open-Source-Modelle wirklich stark und praktisch
  Besonders StepFun-3.5-flash funktioniert auch in komplexen Rust-Codebasen hervorragend
  Ich habe nichts mit StepFun zu tun, aber dem Team, das mit einer 196B/11B-Architektur eine solche Leistung erzielt hat, zolle ich großen Respekt
- Modelle der „letzten Generation“ sind Open Source zwar noch immer überlegen, aber Modelle wie GLM-5 scheinen Pattern Matching gut zu erfassen
  Der GertLabs-Benchmark, der Modelle gegeneinander antreten lässt, ist schwer zu manipulieren und daher ziemlich vertrauenswürdig
- Tatsächlich ist diese Benchmark-Optimierung etwas, das alle Modelle betreiben
  Bei Cloud-Modellen könnte es sogar noch stärker sein, weil dort auch die Runtime angepasst werden kann
- Ich lasse Qwen 3.5 27B auf einer 4090 laufen, und so eine starke Coding-Performance habe ich bei einem lokalen Modell zum ersten Mal gesehen
  Früher waren sie kaum nutzbar, diesmal bin ich wirklich überrascht
- Ich habe mich gefragt, ob es aktuelle Offline-/Private-Coding-Benchmarks gibt, und Apex Testing sieht ziemlich gut aus
  Wenn dort andere Tests als die Standardaufgaben verwendet werden, dürfte das auch robuster gegen Überoptimierung sein
Ich vergleiche gerade die Leistung lokaler Modelle, während ich sie auf einem MBP M3 Max 128G laufen lasse
Opus 4.6 und Gemini Pro waren schnell und präzise, aber qwen3.5:35b-a3b lief 45 Minuten lang und lieferte eine ungenaue Antwort
Die Lüfter waren so laut wie ein startendes Flugzeug
Ich frage mich, ob man mit einem so langsamen Modell große Codebasen überhaupt bearbeiten kann
- In Wahrheit gibt es Grenzen dabei, ein Open-Model mit 100B Parametern auf einem Laptop laufen zu lassen
  Cloud-Modelle laufen schließlich mit über 1T Parametern auf GPUs im Wert von mehreren Millionen Dollar
  Lokales Coding ist realistisch eher auf dem Niveau von „Boilerplate für Android-Apps erzeugen“
- Opus und Gemini laufen auf H200-Klasse-GPUs im Wert von mehreren Millionen Dollar
  Lokale Modelle liegen noch immer etwa auf dem Niveau von zwei Generationen älterer Leistung, und wenn etwas wirklich Sonnet-4.5-Niveau hätte, wäre der Abstand zu Opus 4.6 groß
- Die Branche sitzt einem logischen Fehlschluss auf, nämlich dass größere Modelle immer besser seien
  Tatsächlich können kleinere Modelle, die auf enge Probleme spezialisiert sind, besser funktionieren
  Unser Team lässt auf einem M2 mit 16 GB ein kleines Modell laufen, das sich ausschließlich auf Coding konzentriert, und wir halten es für besser als Sonnet 4.5
  Wir werden bald die Beta von rig.ai veröffentlichen
- MacBooks haben starke thermische Einschränkungen und sind für lange Arbeitslasten ungeeignet
  Selbst auf Servern steigt die GPU-Leistung um 30 %, wenn man die Lüfterdrehzahl fest auf 100 % setzt
  Lokale Modelle eignen sich für leichte Aufgaben, Schweres verarbeitet man effizienter in der Cloud
- qwen3.5-35b-a3b neigt dazu, bei kurzem Kontext viel Zeit auf Schlussfolgern zu verwenden
  Es gibt Berichte, dass es deutlich effizienter ist, wenn man einen langen System-Prompt oder Dateiinhalte mitgibt
Ich habe eine Anleitung geschrieben, um auf einem M1 MacBook Pro llama.cpp, OpenCode und Qwen3-Coder-30B-A3B-Instruct (GGUF, Q4_K_M-Quantisierung) einzurichten
Die Installation war ziemlich knifflig, aber sie lässt sich auch auf neuere Modelle anwenden
Link zur Installationsanleitung
- Mit LM Studio lässt sich das mit einer Suche und einem Klick installieren, und es wird über eine OpenAI-kompatible API bereitgestellt
- Ich habe dasselbe Setup auch auf einem Ryzen-Desktop mit 32 GB gemacht, und Qwen war am beeindruckendsten
  Dank der MoE-Architektur ist auch die Inferenzgeschwindigkeit hoch
  Ich habe mich für die Q4_K_M-Quantisierung entschieden und frage mich, ob das die beste Wahl ist
- Ich warte darauf, dass ein brauchbares lokales Modell auch mit 16 GB RAM erscheint
- Mich würde interessieren, wie hoch die Ausführungsgeschwindigkeit auf dem M1 ist
Ich habe angefangen, das Innere von LLMs zu studieren, und dabei gemerkt, dass float32 eine viel zu großzügige Präzision ist
Über Blogposts habe ich Quantisierung gelernt und Claude die Genauigkeit von 1- bis 8-Bit-Quantisierung analysieren lassen
4 Bit wirkten wie ein sweet spot, weil sie bei 99 % Ähnlichkeit fast ohne Verlust auskommen und nur halb so groß wie 8 Bit sind
Es ist interessant zu sehen, dass auch echte Fachleute 4 Bit verwenden
- Auf aktueller NVIDIA-Hardware wird sogar 4-Bit-Training unterstützt
  GPT-OSS-Modelle wurden im MXFP4-Format trainiert
  OCP-Standardisierungsdokument, MX-Format-Spezifikation
- Forschung zu ternären Modellen ist ebenfalls spannend
  Die Berechnungen sind sehr schnell und cache-effizient, daher lohnt sich die Untersuchung
- Ich würde dazu gern mehr lernen und frage mich, ob es empfehlenswerte Ressourcen gibt
- Ich kann schwer einschätzen, welche kognitive Wirkung ein Präzisionsunterschied von 1 % in der Praxis hat
  Das System ist so sehr eine Blackbox, dass es intuitiv schwer zu verstehen ist
Ich habe Qwen3.5 122B mit LM Studio und Opencode laufen lassen, und es war ziemlich beeindruckend
Selbst in einer M4-Max-/128-GB-Umgebung ist es nicht langsam und zeigt Codeanalyse auf Claude-Code-Niveau
Es ist erstaunlich, wie weit sich vollständig lokale Alternativen entwickelt haben
Open Models werden immer besser, sind aber noch nicht auf dem Niveau von Sonnet 4.5
In engen Domänen sind sie hervorragend, bei der Lösung mehrdeutiger Probleme aber schwach
Qwen 3.5 war das beste OSS, das ich bisher benutzt habe, und es beginnt zunehmend, echte Intelligenz zu zeigen
Ich lasse es kostenlos auf einer RTX 6000 Pro laufen, nutze aber häufiger Composer 1.5
Trotzdem erwarte ich, dass noch in diesem Jahr ein lokales Modell auf GPT-5.2-Niveau erscheint
Es gibt viele überzogene Behauptungen
Nur wenige haben die Modelle tatsächlich benutzt, und oft fehlt ein realistischer Maßstab
Früher stand fast immer der Hinweis dabei, dass man „mehr als ein paar K Tokens nicht nutzen kann“
- Ich habe mit Qwen 3.5 122B/a10B (q3, unsloth dynamic quant) eine RPN-Rechner-Web-App gebaut, die als erstes lokales Modell vollständig funktionierte
  Bei anderen Modellen war entweder die Stack-Implementierung falsch oder die UI chaotisch
  Claude Sonnet 4.6 hat dieses Problem ebenfalls korrekt gelöst, aber ansonsten ist fast alles gescheitert
- Qwen3-Coder-30B-A3B-Instruct ist gut für IDE-Integration oder kleine Aufgaben auf Funktionsebene, hat aber Grenzen bei der Implementierung großer Features
- Mit dem 35B-Modell habe ich eine Polars-basierte PCA-Implementierung in 10 Minuten fertiggestellt
  Früher halluzinierten Modelle an dieser Stelle immer pandas-Code, das ist also ein großer Fortschritt
Es fällt auf, dass Claude im SWE-Chart fehlt
Das vermittelt den Eindruck, die Daten seien absichtlich manipuliert worden
Schon allein diese Haltung lässt das Vertrauen schwinden
Ich freue mich auf den Tag, an dem ich das direkt lokal laufen lassen kann
Ich möchte die Abhängigkeit von US-Diensten verringern
Ich frage mich, ob es in Europa Dienste gibt, mit denen man Open Models testen kann
- Koyeb vermietet seit der Übernahme durch Mistral GPUs minutengenau, und man kann Modelle auch mit einem Klick deployen