- Als 27-Milliarden-Parameter-Dense-Multimodalmodell veröffentlicht und unterstützt in einem einheitlichen Checkpoint sowohl Thinking- als auch Non-Thinking-Modi sowie Bild- und Videoverarbeitung
- Die agentic coding performance übertrifft bei wichtigen Coding-Benchmarks durchgehend das Open-Source-Flaggschiff der Vorgängergeneration Qwen3.5-397B-A17B und schlägt sogar Modelle mit bis zu 15-fach höherer Gesamtparameterzahl
- Erreichte SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2; außerdem wurden Werte für Text-Reasoning und STEM wie GPQA Diamond 87.8 und AIME26 94.1 veröffentlicht
- Durch die Dense-Architektur entfällt die Komplexität des MoE-Routings, das Deployment wird einfacher, und es gibt Unterstützung für Open Weights, API, sofortige Nutzung über Qwen Studio sowie Integrationen mit OpenClaw, Qwen Code und Claude Code
- Zeigt, dass ein gut trainiertes Dense-Modell die deutlich größere Vorgängergeneration bei zentralen Entwickleraufgaben übertreffen kann, und erweitert zugleich die agentic coding-Ausrichtung der Qwen3.6-Familie
Überblick
- Qwen3.6-27B wurde als 27-Milliarden-Parameter-Dense-Multimodalmodell veröffentlicht und unterstützt sowohl multimodale Thinking- als auch Non-Thinking-Modi
- Bei der agentic coding performance übertrifft es das Open-Source-Flaggschiff der Vorgängergeneration Qwen3.5-397B-A17B über die wichtigsten Coding-Benchmarks hinweg
- Durch die Dense-Architektur ohne MoE-Routing-Komplexität ist das Deployment einfacher und liefert Top-Coding-Performance in einer praktischen, breit einsetzbaren Größenklasse
- Es ist sofort in Qwen Studio nutzbar; zusätzlich werden Open Weights für die Community und API-Zugänge bereitgestellt
- Zu den Kerneigenschaften zählen agentic coding auf Flaggschiff-Niveau, starkes Text-Reasoning und multimodale Reasoning-Fähigkeiten
Leistung
- Für Qwen3.6-27B wurde eine Gesamtevaluierung gegenüber Dense- und MoE-Referenzmodellen vorgestellt; bei agentic coding benchmarks wurden deutliche Fortschritte erzielt
- Es wird ausdrücklich angegeben, dass das Modell sogar bis zu 15-mal größere Modelle bei der Gesamtparameterzahl übertrifft
- Die Evaluationskategorien umfassen Sprache, Wissen, STEM und Reasoning, Vision-Language, Dokumentenverständnis, Videoverständnis und Visual Agent
-
Sprache
- Schon mit 27 Milliarden Parametern übertrifft es Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks
- SWE-bench Verified 77.2 gegenüber 76.2
- SWE-bench Pro 53.5 gegenüber 50.9
- Terminal-Bench 2.0 59.3 gegenüber 52.5
- SkillsBench 48.2 gegenüber 30.0
- Auch andere Dense-Modelle derselben Größenklasse werden mit deutlichem Abstand übertroffen
- Bei Reasoning-Aufgaben erreicht es 87.8 Punkte in GPQA Diamond, ein Wert auf Augenhöhe mit Modellen, die um ein Mehrfaches größer sind
- Die Detailtabelle enthält Vergleiche mit Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B und Qwen3.6-27B
- Wichtige Kennzahlen im Bereich Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Wichtige Kennzahlen im Bereich Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Wichtige Kennzahlen im Bereich STEM und Reasoning
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- Schon mit 27 Milliarden Parametern übertrifft es Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks
-
Einstellungen der Sprachevaluation
- Die SWE-Bench Series verwendet ein internes Agent-Scaffold sowie Bash- und File-Edit-Tools, mit temp 1.0, top_p 0.95 und einem Kontextfenster von 200K
- Alle Referenzmodelle wurden auf einem verfeinerten Benchmark evaluiert, in dem einige problematische Tasks des öffentlichen SWE-bench-Pro-Sets korrigiert wurden
- Terminal-Bench 2.0 nutzt den Harbor- oder Terminus-2-Harness
- 3 Stunden Timeout, 32 CPU, 48 GB RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
- Durchschnitt aus 5 Läufen
- SkillsBench evaluiert 78 Tasks mit OpenCode
- Verwendet wird ein in sich geschlossenes Subset ohne API-abhängige Tasks
- Durchschnitt aus 5 Läufen
- Für die Bewertung anderer Modelle auf NL2Repo wurde Claude Code verwendet
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench ist ein Claw-Agent-Benchmark auf Basis realer Nutzerverteilungen
- temp 0.6, 256K ctx
- QwenWebBench ist ein interner Benchmark zur Frontend-Codegenerierung
- Zweisprachig in EN und CN aufgebaut
- 7 Kategorien: Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D
- Bewertet werden Code und visuelle Übereinstimmung per Auto-Render und multimodalem Judge
- Verwendet wird das BT- oder Elo-Rating-System
- AIME 26 nutzt vollständig AIME 2026 I und II
- Es wird darauf hingewiesen, dass die Werte von den Qwen-3.5-Notizen abweichen können
- Die SWE-Bench Series verwendet ein internes Agent-Scaffold sowie Bash- und File-Edit-Tools, mit temp 1.0, top_p 0.95 und einem Kontextfenster von 200K
-
Vision-Language
- Qwen3.6-27B unterstützt in einem einzigen integrierten Checkpoint sowohl Vision-Language-Thinking- als auch Non-Thinking-Modi
- Kann neben Text auch Bilder und Videos verarbeiten
- Unterstützt multimodales Reasoning, Dokumentenverständnis und visuelle Frage-Antwort-Aufgaben
- Die Vergleichstabelle wird anhand von Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B und Qwen3.6-27B gezeigt
-
STEM und Rätsel
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
Allgemeines VQA
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Dokumentenverständnis
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Räumliche Intelligenz
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Videoverständnis
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Hinweis
- Leere Felder (
--) in der Tabelle bedeuten, dass noch keine Werte vorliegen oder die Angabe nicht zutrifft
- Leere Felder (
Einsatz von Qwen3.6-27B
- Unterstützung in Alibaba Cloud Model Studio soll laut Angabe in Kürze verfügbar sein
- Open Weights werden auf Hugging Face und ModelScope bereitgestellt; Self-Hosting ist möglich
- Es gibt einen Nutzungsweg über die Alibaba Cloud Model Studio API sowie eine direkte Testmöglichkeit in Qwen Studio
- Unterstützt Integrationen mit Coding-Helfern von Drittanbietern wie OpenClaw, Claude Code und Qwen Code
- Erwähnt werden die Vereinfachung von Entwickler-Workflows und die Unterstützung einer context-aware coding experience
-
API-Nutzung
- Dieses Release unterstützt die Funktion
preserve_thinking - Sie bewahrt die in allen vorherigen Turns einer Nachricht erzeugten Thinking-Inhalte und wird für agentic tasks empfohlen
- Dieses Release unterstützt die Funktion
-
Alibaba Cloud Model Studio
- Unterstützt OpenAI-kompatible Chat-Completions- und Responses-APIs
- Zusätzlich wird eine Anthropic-kompatible API-Schnittstelle unterstützt
- Laut offizieller Dokumentation werden folgende Beispiel-Umgebungsvariablen angegeben
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- Dazu werden auch Beispielregionen für die Base URL genannt
- Im Beispielcode wird standardmäßig der Modellname
qwen3.6-27bverwendet - In
extra_bodyistenable_thinking: Trueenthaltenpreserve_thinking: Trueist als Kommentar dargestellt
- Enthalten ist außerdem ein Beispiel für Streaming-Antworten, bei dem reasoning_content und answer content getrennt gesammelt werden
- Für weitere Informationen wird auf den Link zur API doc verwiesen
-
Coding & Agents
- Qwen3.6-27B verfügt über agentic-coding-Fähigkeiten und lässt sich nahtlos mit OpenClaw, Claude Code und Qwen Code integrieren
-
OpenClaw
- OpenClaw ist ein selbst gehosteter Open-Source-AI-Coding-Agent; frühere Namen waren Moltbot oder Clawdbot
- In Verbindung mit Model Studio bietet es im Terminal ein vollständiges agentic-coding-Erlebnis
- Das Startskript umfasst Node.js 22+, das Ausführen des Installationsskripts, das Setzen von
DASHSCOPE_API_KEYund das Starten vonopenclaw dashboardoderopenclaw tui - Bei der ersten Nutzung muss
~/.openclaw/openclaw.jsonbearbeitet werden- Es wird ausdrücklich darauf hingewiesen, nicht die gesamte Datei zu überschreiben
- Stattdessen sollen nur die erforderlichen Felder zusammengeführt werden, um bestehende Einstellungen zu erhalten
- Die Beispielkonfiguration enthält den Provider
modelstudiound das Modellqwen3.6-27bapiistopenai-completions- Der Wert für
reasoningist true - Eingabetypen sind
text,image contextWindowist 131072maxTokensist 16384- Das primäre Standardmodell ist
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code ist ein Open-Source-AI-Agent für das Terminal und ein tief auf die Qwen Series optimiertes Tool
- Das Startskript umfasst Node.js 20+, die Installation von
@qwen-code/qwen-code@latestund das Ausführen vonqwen - Innerhalb der Session werden Beispiele für die Befehle
/helpund/authgezeigt - Bei der ersten Nutzung erscheint ein Login-Prompt; über
/authkann die Authentifizierungsmethode gewechselt werden
-
Claude Code
- Qwen APIs unterstützen auch das Anthropic-API-Protokoll
- Es wird ausdrücklich erwähnt, dass sie mit Tools wie Claude Code verwendet werden können
- Die Beispielkonfiguration enthält folgende Umgebungsvariablen
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- Der Ausführungsbefehl ist
claude
Fazit
- Qwen3.6-27B belegt, dass ein gut trainiertes Dense-Modell die deutlich größere Vorgängergeneration bei für Entwickler wichtigen Aufgaben übertreffen kann
- Trotz 27 Milliarden Parametern übertrifft es Qwen3.5-397B-A17B in allen wichtigen agentic-coding-Benchmarks
- Die Struktur vereinfacht Deployment und Betrieb, und die Qwen3.6 Open-Source-Familie deckt mit der Ergänzung von Qwen3.6-27B nun ein breiteres Modellspektrum ab
4 Kommentare
Es müsste schon ein a3b sein, damit man es wenigstens ein bisschen lokal laufen lassen kann, haha
Die Benchmarks sollen zwar gut sein, aber im praktischen Einsatz scheint es mir noch nicht auf einem Niveau zu sein, auf dem man es als Coding-Agent wirklich sinnvoll nutzen kann.
Ich habe es ausprobiert, und beim agentischen Coding gibt es keine größeren Probleme. Wie schon gesagt ist die Leistung in der Praxis und beim allgemeinen Coding im Vergleich zu Modellen mit mehr Parametern aber zwangsläufig schwächer. Bitte beachten Sie auch, dass sich die Einstellungen von 3.5 unterscheiden und zusätzlich ein
preserve_thinking-Modus hinzugekommen ist. Mit einer 27B-4bit-Quantisierung gab es bei der lokalen Nutzung keine Probleme.Hacker-News-Kommentare
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mmitllama-serverausgeführt, und das 35B-A3B-Modell kam auf rund 25 t/s. Zum Vergleich: Auf einer A100 waren es jeweils etwa 41 t/s und 97 t/s. Das 27B habe ich noch nicht lange getestet, aber das 35B-A3B ist oft entgleist, wenn der Kontext über 15k~20k Tokens hinausging. Für grundlegende Aufgaben kann man es stabil einsetzen, aber Frontier-Niveau würde ich das nicht nennen.vllm-Flags für zehn Entwickler mit 20~25 tok/s; in ruhigen Phasen geht es bis etwa 40 tok/s hoch. Die Entwickler sind mit dieser Leistung zufrieden, haben aber dennoch nach zusätzlichen GPUs gefragt, um den Durchsatz weiter zu erhöhen.