- Die Qwen3.5-Serie besteht aus vier großen Sprachmodellen mit 35B, 122B, 27B usw.; drei davon werden unter der Apache-2.0-Open-Source-Lizenz veröffentlicht
- In Benchmarks übertrifft sie OpenAI GPT-5-mini und Anthropic Claude Sonnet 4.5; zugleich ist leistungsstarker Betrieb auch in lokalen GPU-Umgebungen möglich
- Mit 4-Bit-Quantisierung wird die Genauigkeit nahezu beibehalten, während zugleich Kontextfenster mit mehr als 1 Million Tokens unterstützt werden; so ist auch auf Desktop-GPUs die Verarbeitung großer Datenmengen möglich
- Durch die Kombination von Gated Delta Networks und einer Mixture-of-Experts-(MoE)-Struktur wurde die Effizienz gesteigert; über den „Thinking Mode“ werden Antworten nach einem internen Schlussfolgerungsprozess erzeugt
- Unternehmen können damit datenschutzorientierte On-Premises-AI aufbauen und ohne Abhängigkeit von teuren Cloud-Diensten autonome Agenten entwickeln
Überblick über das Modell Qwen3.5-Medium
- Die vom Qwen-AI-Team von Alibaba veröffentlichten Modelle der Qwen3.5-Medium-Serie umfassen vier LLMs mit Unterstützung für agentic tool calling
- Öffentliche Modelle: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Proprietäres Modell: Qwen3.5-Flash (nur über die Alibaba Cloud Model Studio API)
- Die drei Open-Source-Modelle können bei Hugging Face und ModelScope heruntergeladen werden
- Qwen3.5-Flash wird als kommerzielle API angeboten und hat im Vergleich zu westlichen Modellen niedrigere Betriebskosten
Leistung und technische Struktur
- Die Qwen3.5-Modelle übertreffen OpenAI GPT-5-mini und Claude Sonnet 4.5 in Benchmarks
- Auch nach der Quantisierung bleibt die Genauigkeit hoch; in einer lokalen GPU-Umgebung mit 32 GB VRAM werden Kontextfenster mit über 1 Million Tokens unterstützt
- Durch 4-Bit-Gewichte und KV-Cache-Quantisierung sind verlustfreie Genauigkeit und die Verarbeitung großer Datenmengen möglich
- Hybride Architektur: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Von insgesamt 35 Milliarden Parametern werden nur 300 Millionen aktiviert
- Die MoE-Schichten bestehen aus 256 Experten (8 Routing + 1 geteilter)
- Genauigkeit bleibt auch bei 4-Bit-Komprimierung erhalten, was bei lokalem Deployment Speicher spart
- Zur Unterstützung der Forschung wurde zusätzlich das Modell Qwen3.5-35B-A3B-Base veröffentlicht
Produktaufbau und Funktionen
- Thinking Mode: Das Modell erzeugt vor der Antwort einen internen Schlussfolgerungsprozess in ``-Tags
- Merkmale nach Modell
- Qwen3.5-27B: auf Effizienz ausgelegt, unterstützt Kontexte mit mehr als 800.000 Tokens
- Qwen3.5-Flash: 1 Million Tokens Basiskontext, offizielle Tools integriert
- Qwen3.5-122B-A10B: für Server-GPUs mit 80 GB VRAM, unterstützt 1M+ Kontext
- Benchmark-Ergebnisse: Qwen3.5-35B-A3B ist bei Wissen (MMMLU) und visuellem Schlussfolgern (MMMU-Pro) besser als Qwen3-235B, GPT-5-mini und Sonnet 4.5
Preise und API-Integration
- Qwen3.5-Flash-API-Preise
- Eingabe: $0.1 / 1 Million Tokens
- Ausgabe: $0.4 / 1 Million Tokens
- Cache-Erstellung: $0.125 / 1 Million Tokens
- Cache-Lesen: $0.01 / 1 Million Tokens
- Tarif für Tool Calling: Web Search $10/1.000 Aufrufe, Code Interpreter kostenlos (vorübergehend)
- Im Vergleich zu wichtigen LLMs ist dies eine der günstigsten APIs
- Beispiel: Claude Sonnet 4.5 kostet insgesamt $18/1 Million Tokens, GPT-5.2 $15.75, Qwen3.5-Flash $0.5
Einsatz in Unternehmen und Bedeutung
- Mit der Veröffentlichung von Qwen3.5-Medium werden Feinabstimmung und Deployment von Modellen auf dem Niveau großer Forschungslabore auch für gewöhnliche Unternehmen möglich
- In On-Premises-Umgebungen lassen sich große Dokument- und Videoanalysen ausführen, bei zugleich stärkerem Datenschutz
- Die Mixture-of-Experts-Struktur kann innerhalb der internen Firewall betrieben werden, wodurch Datensouveränität erhalten bleibt
- Mit Thinking Mode und Tool Calling ist der Aufbau autonomer AI-Agenten möglich
- Erste Nutzer bewerten dies mit den Worten, man habe „die Lücke zu großen geschlossenen Modellen verkleinert“
- Durch das effizienzorientierte Design sind Kostensenkung, stärkere Sicherheit und höhere operative Agilität bei der AI-Integration möglich
4 Kommentare
Ich habe eine RTX Pro 6000 (96GB, effektiv 94GB), aber das 122B-Modell lässt sich mit ollama nicht laden. Ich vermute, das liegt daran, dass es ein Vision-Modell ist und an dem Teil, in dem der Vision-Transformer enthalten ist. Das GPT OSS 120b-Modell lässt sich dagegen problemlos laden.
Stimmt … sobald ein Vision-Encoder verwendet wird, braucht selbst ein 1B-Modell schon 9 GB VRAM.
Man muss ihn mit einem CUDA-basierten
llama.cpp-Server betreiben, damit die Leistung stimmt.Hacker-News-Kommentare
Open-Source-Modelle betreiben größtenteils Benchmark-Optimierung als Spiel
Bei jedem neu veröffentlichten Modell heißt es, es sei auf dem Niveau des SOTA von vor ein paar Monaten, aber in der Praxis ist man beim tatsächlichen Einsatz oft enttäuscht
Ich habe Qwen3-Coder-Next und Qwen3.5 ausprobiert, und an Sonnet 4.5 reichen sie nicht heran
Wenn man die Ziele allerdings klar vorgibt und durch Tests Einschränkungen setzt, versuchen sie hartnäckig weiter und lösen das Problem am Ende doch
Trotzdem ist das als Open-Source-Modell beeindruckend, und dass so etwas in einer self-hosted Umgebung möglich ist, ist erstaunlich
Die Übertreibung, es sei auf Sonnet-4.5-Niveau, sollte man aber nicht glauben
Besonders StepFun-3.5-flash funktioniert auch in komplexen Rust-Codebasen hervorragend
Ich habe nichts mit StepFun zu tun, aber dem Team, das mit einer 196B/11B-Architektur eine solche Leistung erzielt hat, zolle ich großen Respekt
Der GertLabs-Benchmark, der Modelle gegeneinander antreten lässt, ist schwer zu manipulieren und daher ziemlich vertrauenswürdig
Bei Cloud-Modellen könnte es sogar noch stärker sein, weil dort auch die Runtime angepasst werden kann
Früher waren sie kaum nutzbar, diesmal bin ich wirklich überrascht
Wenn dort andere Tests als die Standardaufgaben verwendet werden, dürfte das auch robuster gegen Überoptimierung sein
Ich vergleiche gerade die Leistung lokaler Modelle, während ich sie auf einem MBP M3 Max 128G laufen lasse
Opus 4.6 und Gemini Pro waren schnell und präzise, aber qwen3.5:35b-a3b lief 45 Minuten lang und lieferte eine ungenaue Antwort
Die Lüfter waren so laut wie ein startendes Flugzeug
Ich frage mich, ob man mit einem so langsamen Modell große Codebasen überhaupt bearbeiten kann
Cloud-Modelle laufen schließlich mit über 1T Parametern auf GPUs im Wert von mehreren Millionen Dollar
Lokales Coding ist realistisch eher auf dem Niveau von „Boilerplate für Android-Apps erzeugen“
Lokale Modelle liegen noch immer etwa auf dem Niveau von zwei Generationen älterer Leistung, und wenn etwas wirklich Sonnet-4.5-Niveau hätte, wäre der Abstand zu Opus 4.6 groß
Tatsächlich können kleinere Modelle, die auf enge Probleme spezialisiert sind, besser funktionieren
Unser Team lässt auf einem M2 mit 16 GB ein kleines Modell laufen, das sich ausschließlich auf Coding konzentriert, und wir halten es für besser als Sonnet 4.5
Wir werden bald die Beta von rig.ai veröffentlichen
Selbst auf Servern steigt die GPU-Leistung um 30 %, wenn man die Lüfterdrehzahl fest auf 100 % setzt
Lokale Modelle eignen sich für leichte Aufgaben, Schweres verarbeitet man effizienter in der Cloud
Es gibt Berichte, dass es deutlich effizienter ist, wenn man einen langen System-Prompt oder Dateiinhalte mitgibt
Ich habe eine Anleitung geschrieben, um auf einem M1 MacBook Pro llama.cpp, OpenCode und Qwen3-Coder-30B-A3B-Instruct (GGUF, Q4_K_M-Quantisierung) einzurichten
Die Installation war ziemlich knifflig, aber sie lässt sich auch auf neuere Modelle anwenden
Link zur Installationsanleitung
Dank der MoE-Architektur ist auch die Inferenzgeschwindigkeit hoch
Ich habe mich für die Q4_K_M-Quantisierung entschieden und frage mich, ob das die beste Wahl ist
Ich habe angefangen, das Innere von LLMs zu studieren, und dabei gemerkt, dass float32 eine viel zu großzügige Präzision ist
Über Blogposts habe ich Quantisierung gelernt und Claude die Genauigkeit von 1- bis 8-Bit-Quantisierung analysieren lassen
4 Bit wirkten wie ein sweet spot, weil sie bei 99 % Ähnlichkeit fast ohne Verlust auskommen und nur halb so groß wie 8 Bit sind
Es ist interessant zu sehen, dass auch echte Fachleute 4 Bit verwenden
GPT-OSS-Modelle wurden im MXFP4-Format trainiert
OCP-Standardisierungsdokument, MX-Format-Spezifikation
Die Berechnungen sind sehr schnell und cache-effizient, daher lohnt sich die Untersuchung
Das System ist so sehr eine Blackbox, dass es intuitiv schwer zu verstehen ist
Ich habe Qwen3.5 122B mit LM Studio und Opencode laufen lassen, und es war ziemlich beeindruckend
Selbst in einer M4-Max-/128-GB-Umgebung ist es nicht langsam und zeigt Codeanalyse auf Claude-Code-Niveau
Es ist erstaunlich, wie weit sich vollständig lokale Alternativen entwickelt haben
Open Models werden immer besser, sind aber noch nicht auf dem Niveau von Sonnet 4.5
In engen Domänen sind sie hervorragend, bei der Lösung mehrdeutiger Probleme aber schwach
Qwen 3.5 war das beste OSS, das ich bisher benutzt habe, und es beginnt zunehmend, echte Intelligenz zu zeigen
Ich lasse es kostenlos auf einer RTX 6000 Pro laufen, nutze aber häufiger Composer 1.5
Trotzdem erwarte ich, dass noch in diesem Jahr ein lokales Modell auf GPT-5.2-Niveau erscheint
Es gibt viele überzogene Behauptungen
Nur wenige haben die Modelle tatsächlich benutzt, und oft fehlt ein realistischer Maßstab
Früher stand fast immer der Hinweis dabei, dass man „mehr als ein paar K Tokens nicht nutzen kann“
Bei anderen Modellen war entweder die Stack-Implementierung falsch oder die UI chaotisch
Claude Sonnet 4.6 hat dieses Problem ebenfalls korrekt gelöst, aber ansonsten ist fast alles gescheitert
Früher halluzinierten Modelle an dieser Stelle immer pandas-Code, das ist also ein großer Fortschritt
Es fällt auf, dass Claude im SWE-Chart fehlt
Das vermittelt den Eindruck, die Daten seien absichtlich manipuliert worden
Schon allein diese Haltung lässt das Vertrauen schwinden
Ich freue mich auf den Tag, an dem ich das direkt lokal laufen lassen kann
Ich möchte die Abhängigkeit von US-Diensten verringern
Ich frage mich, ob es in Europa Dienste gibt, mit denen man Open Models testen kann