Qwen3.6-35B-A3B: Agentic Coding Power, jetzt für alle offen

(qwen.ai)

25 Punkte von ragingwind 13 일 전 | 2 Kommentare | Auf WhatsApp teilen

Es handelt sich um ein großes Sprachmodell, das vom Alibaba-Qwen-Team im April 2026 als Open Source veröffentlicht wurde. Es nutzt eine MoE-Architektur (Mixture-of-Experts). MoE bedeutet, dass sich im Modell mehrere „Expertennetzwerke“ befinden und bei jeder Eingabe nur ein Teil davon ausgewählt und aktiviert wird. Die Gesamtzahl der Parameter liegt bei 35 Milliarden, aber bei der tatsächlichen Inferenz werden nur 3 Milliarden verwendet, sodass es mit nur etwa 8,6 % der Gesamtkapazität arbeitet. Es ist ein multimodales Modell, das nicht nur Text, sondern auch Bilder und Videos versteht, und unterstützt sowohl einen Thinking-Modus, der den Denkprozess zeigt, als auch einen Non-thinking-Modus, der direkt antwortet.

Kerninhalte

Gegenüber dem Vorgänger Qwen3.5-35B-A3B wurde die Leistung beim Agentic Coding (eine autonome Form des Codings, bei der die KI selbst Dateien durchsucht, das Terminal ausführt sowie Bugs diagnostiziert und behebt) deutlich verbessert
Mit 73,4 Punkten auf SWE-bench Verified (Bewertung echter Software-Bugfixes) und 51,5 Punkten auf Terminal-Bench 2.0 übertrifft es in vielen Bereichen das deutlich größere Dense-Modell Qwen3.5-27B (traditionelle Architektur, bei der alle Parameter verwendet werden)
Bei Mathematikwettbewerben (AIME 2026) erreicht es 92,7 Punkte und beim Live-Coding (LiveCodeBench v6) 80,4 Punkte und liegt damit auf dem Niveau eines 27B-Dense-Modells
Im multimodalen Bereich übertrifft es mit 81,7 Punkten auf MMMU und 85,3 Punkten auf RealWorldQA Claude Sonnet 4.5 (ein kostenpflichtiges kommerzielles Modell) und ist besonders stark bei räumlicher Intelligenz wie der Erkennung von Objektpositionen in Bildern (RefCOCO 92,0)
Sofortige Integration mit Coding-Tools von Drittanbietern wie OpenClaw, Claude Code und Qwen Code möglich; außerdem kompatibel mit dem Anthropic-API-Protokoll

Vorteile

Mit 3B aktiven Parametern erreicht es eine Leistung auf dem Niveau von 27–31B-Dense-Modellen, benötigt daher weniger GPU-Speicher und Strom und kann auch in kleineren Umgebungen betrieben werden
Klassenbeste Leistung über die wichtigsten Benchmarks für Agentic Coding hinweg
Verarbeitet Text, Bilder, Videos und Dokumente in einem einzigen Modell
Vollständig Open Source; jeder kann es herunterladen, weiter trainieren und anpassen

Nachteile

Bei allgemeinen Agentenaufgaben (VITA-Bench 35,6 Punkte) liegt es unter dem vorherigen 27B-Dense-Modell (41,8 Punkte), es gibt also noch Verbesserungspotenzial
Auch bei wissenschaftlichem Schlussfolgern auf höchstem Schwierigkeitsgrad (HLE 21,4 Punkte) bleibt es hinter großen Dense-Modellen (24,3 Punkte) zurück
Leicht schwächer bei Wissens-Benchmarks (MMLU-Pro)
Die API steht noch auf „coming soon“, daher ist eine sofortige Nutzung in großem Maßstab schwierig

Alleinstellungsmerkmale

Lässt das ähnlich aufgebaute MoE-Modell Google Gemma4-26B-A4B in fast allen Benchmarks deutlich hinter sich
Die Funktion preserve_thinking, die bei Agentenaufgaben die Denkinhalte früherer Gesprächsrunden bewahrt, ist vorteilhaft für die Aufrechterhaltung eines langfristigen Kontexts
Kompatibel sogar mit dem Anthropic-API-Protokoll und damit sofort anschlussfähig an das Claude-Code-Ökosystem

Implikationen

Ergebnisse auf dem Niveau eines 27B-Modells mit nur 3B aktiven Parametern zeigen, dass die MoE-Architektur zu einem neuen Standard für KI-Effizienz wird
Da das Open-Source-Modell in vielen Bereichen kostenpflichtige Modelle wie Claude Sonnet 4.5 schlägt, wächst für Unternehmen der Anreiz, von teuren APIs auf Self-Hosting umzusteigen
Der sehr hohe Anteil von Agentic Coding in den Benchmarks deutet darauf hin, dass die Branche die autonome Softwareentwicklungsfähigkeit von KI als wichtigstes Bewertungskriterium betrachtet

2 Kommentare

jeeeyul 11 일 전

Nach den Experimenten unseres Labors ist dies ein Modell, das ein Qwen-Team ohne Qwen-Team überhastet veröffentlicht hat, nur um die Marktunsicherheit zu kontrollieren und lediglich auf Benchmarks zu passen. Der Tool-Fetisch ist stark ausgeprägt. Gegenüber 3.5 sehen wir es als einen Rückschritt an.

woung717 12 일 전

Ich teste gerade Version 3.5 auf dem Mac, und die Verbesserung der Intelligenz im Vergleich zu den vorherigen Generationen ist wirklich beeindruckend. Dass es inzwischen sogar zu OSS 120B aufgeschlossen hat, sagt eigentlich schon alles.