4 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Open-Source-Modell mit einer sparsamen Mixture-of-Experts-(MoE)-Architektur, bei dem von insgesamt 35 Milliarden Parametern nur 3 Milliarden aktiviert werden und das so Effizienz und Leistung zugleich erreicht
  • Gegenüber der vorherigen Generation wurde die agentische Coding-Fähigkeit deutlich verbessert und erreicht ein Niveau, das mit großen dichten Modellen wie Qwen3.5-27B oder Gemma4-31B konkurrieren kann
  • Erzielt hohe Werte in wichtigen Coding-Benchmarks wie SWE-bench, Terminal-Bench und Claw-Eval und erreicht auch bei multimodalen Aufgaben eine Leistung auf dem Niveau von Claude Sonnet 4.5
  • Offene Gewichte und API-Zugriff sind über Alibaba Cloud Model Studio API, Hugging Face und ModelScope verfügbar; außerdem wird die Integration mit verschiedenen Coding-Tools wie OpenClaw und Claude Code unterstützt
  • Setzt mit 3 Milliarden aktiven Parametern einen neuen Maßstab für effiziente offene Modelle, die großen Modellen ebenbürtig sind

Überblick über Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B ist ein sparsames Mixture-of-Experts-(MoE)-Modell, bei dem von insgesamt 35 Milliarden Parametern nur 3 Milliarden aktiviert werden; ein Open-Source-Modell, das Effizienz und Leistung zugleich bietet
  • Gegenüber der Vorgängerversion Qwen3.5-35B-A3B wurde die Leistung beim agentischen Coding (agentic coding) deutlich verbessert; damit erreicht es ein Niveau, das mit großen dichten Modellen wie Qwen3.5-27B oder Gemma4-31B konkurrieren kann
  • Unterstützt sowohl multimodales Reasoning als auch Nicht-Reasoning-Modi und wird über Qwen Studio, API, Hugging Face und ModelScope bereitgestellt
  • Das Modell kann interaktiv in Qwen Studio genutzt, über die Alibaba Cloud Model Studio API(qwen3.6-flash) aufgerufen oder selbst gehostet werden

Leistungsbewertung

  • Sprach- und Coding-Leistung

    • Qwen3.6-35B-A3B übertrifft mit nur 3 Milliarden aktiven Parametern Qwen3.5-27B (dichtes Modell mit 27 Milliarden Parametern) in mehreren wichtigen Coding-Benchmarks
    • Hohe Punktzahlen mit SWE-bench Verified 73.4, Terminal-Bench 51.5 und einem Claw-Eval-Durchschnitt von 68.7
    • Erreicht im QwenWebBench (Benchmark für Web-Code-Generierung) 1397 Punkte und gehört damit zur Spitzengruppe seiner Klasse
    • Zeigt auch in allgemeinen Agenten-Benchmarks (MCPMark, MCP-Atlas, WideSearch usw.) bessere Ergebnisse als konkurrierende Modelle
    • Hält auch bei wissens- und reasoningbezogenen Tests wie MMLU-Pro, GPQA und AIME26 eine hohe Genauigkeit
  • Evaluierungsumgebung

    • Die SWE-Bench-Reihe wurde auf Basis eines internen Agent-Scaffolds (bash + file-edit-Tool) mit einem Kontextfenster von 200K evaluiert
    • Terminal-Bench 2.0 wurde mit einem Zeitlimit von 3 Stunden in einer Umgebung mit 32 CPU/48GB RAM über 5 Durchläufe gemittelt
    • SkillsBench wurde anhand von 78 Aufgaben ohne API-abhängige Tasks evaluiert
    • QwenClawBench und QwenWebBench sind Benchmarks auf Basis interner realer Nutzungsverteilungen und spiegeln tatsächliche Benutzerumgebungen wider
  • Vision-Language-Leistung

    • Qwen3.6-35B-A3B ist ein natives multimodales Modell und erreicht mit nur 3 Milliarden aktiven Parametern eine Leistung auf dem Niveau von Claude Sonnet 4.5
    • Zeigt Stärken bei räumlicher Intelligenz mit RefCOCO (räumliche Wahrnehmung) 92.0 und ODInW13 50.8
    • Hohe Werte in verschiedenen Vision-Language-Aufgaben, darunter RealWorldQA 85.3, MMBench EN-DEV 92.8 und OmniDocBench1.5 89.9
    • Liefert auch in Benchmarks zum Videoverständnis (VideoMME, VideoMMMU, MLVU usw.) stabile Leistungen im Bereich von 80 bis 86 Punkten

Einsatz von Qwen3.6-35B-A3B

  • Bereitstellung und Zugriff

    • Nutzbar über die Alibaba Cloud Model Studio API(qwen3.6-flash); offene Gewichte können bei Hugging Face und ModelScope heruntergeladen werden
    • Kann sofort in Qwen Studio ausprobiert werden und unterstützt die Integration mit Third-Party-Coding-Assistenten wie OpenClaw, Claude Code und Qwen Code
  • API-Nutzung

    • Unterstützt die Funktion preserve_thinking, die den Thinking-Inhalt früherer Gespräche beibehält und sich für agentische Aufgaben eignet
    • Alibaba Cloud Model Studio bietet eine chat completions API, die mit den API-Spezifikationen von OpenAI und Anthropic kompatibel ist
    • Im Beispielcode kann über die Option enable_thinking der Reasoning-Prozess getrennt von der endgültigen Antwort ausgegeben werden
  • OpenClaw-Integration

    • Qwen3.6-35B-A3B ist mit OpenClaw (früher Moltbot/Clawdbot) kompatibel und bietet in Verbindung mit Model Studio eine terminalbasierte Umgebung für agentisches Coding
    • Wird durch Zusammenführen der Model-Studio-API-Informationen in die Konfigurationsdatei (~/.openclaw/openclaw.json) verwendet
    • Installation und Ausführung sind in einer Umgebung mit Node.js 22 oder höher möglich
  • Qwen-Code-Integration

    • Vollständig kompatibel mit Qwen Code (Open-Source-AI-Agent für das Terminal), das für die Qwen-Serie optimiert ist
    • Kann unter Node.js 20 oder höher installiert werden; die Authentifizierung erfolgt anschließend mit dem Befehl /auth
  • Claude-Code-Integration

    • Unterstützt das Anthropic-API-Protokoll und kann daher auch direkt in Claude Code verwendet werden
    • Ausführung der CLI nach Setzen der Umgebungsvariable ANTHROPIC_MODEL="qwen3.6-flash"

Zusammenfassung und Ausblick

  • Qwen3.6-35B-A3B belegt, dass auch eine sparsame MoE-Architektur agentische Coding- und Reasoning-Fähigkeiten auf dem Niveau großer dichter Modelle erreichen kann
  • Mit 3 Milliarden aktiven Parametern werden sowohl Effizienz als auch Leistung erzielt; auch in multimodalen Benchmarks zeigt das Modell starke Ergebnisse
  • Wird als vollständiger Open-Source-Checkpoint veröffentlicht und setzt damit einen neuen Maßstab für effiziente offene Modelle
  • Das Qwen-Team will die Open-Source-Familie Qwen3.6 weiter ausbauen und erwartet Feedback und Nutzung aus der Community

Zitationsinformation

1 Kommentare

 
GN⁺ 13 일 전
Hacker-News-Kommentare
  • Ich habe die Unsloth 20.9GB GGUF-Version auf meinem Laptop mit LM Studio ausprobiert.
    Modell-Link
    Überraschenderweise hat sie einen Pelikan auf einem Fahrrad besser gezeichnet als Opus 4.7.
    Siehe auch Simon Willisons Vergleichspost.

    • Ich habe es mit demselben Modell reproduziert (M1 Max 64GB, unter 90 Sekunden) — Ergebnisbild
      Mein Ergebnis hatte Sonne und Wolken am Himmel, Gras als dünne grüne Linien und sogar einen Sonnenhalo-Effekt.
      Es gab auch eine ähnliche Darstellung von „Luftströmung“ wie bei Simon, aber am Ende zählen Pelikan und Fahrrad.
    • Dank des GGUF-Links habe ich es ebenfalls ausprobiert.
      Ich habe es im Projekt Shoggoth.db für Wiki-Erkundung + automatischen DB-Aufbau verwendet.
      Im Vergleich zu Qwen3.5 habe ich deutlich gemerkt, dass die Erkundung neuer Organismen besser geworden ist.
      Auch die Geschwindigkeit ist auf etwa 140 Token/s gestiegen, und auf einer RTX 4090 lief es stabil ohne Memory-Offload.
      Allerdings musste ich zur Vermeidung von Multimodal-Konflikten die Option --no-mmproj-offload verwenden.
    • Ich frage mich, wann Tests wie „Pelikan auf einem Fahrrad“ nutzlos werden.
      Ursprünglich sollte damit die Kreativität des Modells über seltsame Prompts bewertet werden, an die sonst niemand gedacht hätte, aber inzwischen wirkt es fast wie ein interner Benchmark.
    • Ich verstehe nicht, warum Qwens Flamingo-Zeichnung gewonnen hat.
      Er sitzt auf dem Reifen, die Schnabelposition ist merkwürdig, und Speichen- und Beinproportionen wirken unnatürlich.
      Auch die Sonnenbrille ist halbtransparent, sodass man nur ein Auge sieht.
      Niedlich ist es schon, aber die nicht angeforderte Fliege und das Zubehör sind für mich eher Minuspunkte.
      Das Ergebnis von Opus war weniger spektakulär, aber genauer.
    • Je länger ich mir die Bilder ansehe, desto mehr wirkt ein World Model wie das weiterhin fehlende Puzzlestück.
      Letztlich kommt es mir so vor, als seien die aktuellen Modelle nur probabilistische Satzgeneratoren.
  • Es ist beruhigend zu sehen, dass das Qwen-Team weiterhin offene Gewichte veröffentlicht.
    Zugehörige News 1, News 2
    Beeindruckend ist, dass das Projekt auch nach dem Weggang wichtiger Leute wie Junyang Lin weiterläuft.

    • Das ist nur eines aus der Qwen-3.6-Serie.
      Kleinere Modelle werden vermutlich bald veröffentlicht, aber das Flaggschiffmodell 397A17B scheint nicht dabei zu sein.
    • Ich persönlich hoffe auf offene Gewichte für qwen-image 2.0.
  • Es gibt bereits eine Version von Unsloth mit abgeschlossener Quantisierung und Konvertierung.
    Hugging-Face-Link

    • Unsloth lädt experimentelle Quants schnell hoch, aber Versionen direkt nach Release werden oft noch korrigiert.
      Man sollte nach etwa einer Woche noch einmal nachsehen, um eine stabile Version zu bekommen.
      Wegen früher Bugs werden gute Modelle manchmal unterschätzt.
    • Ich frage mich, warum Qwen nicht selbst quantisierte Modelle veröffentlicht.
      Ich denke, dass der Quantisierungsprozess komplex ist und Qualitätsverluste riskiert, daher wäre es besser, wenn der ursprüngliche Entwickler es selbst macht.
      Eine schlechte Quant-Version könnte dem Ruf des Modells schaden.
    • Mich würde der VRAM-Bedarf interessieren. Ich würde gern wissen, ob es auch auf einer 16GB-GPU läuft.
    • Ich würde gern verstehen, warum Qwens Standard-Quantisierung schlecht sein soll, wer Unsloth ist
      und welche Vorteile ein gutes Format bringt.
      Eine Erklärung des Quantisierungsprinzips selbst wäre ebenfalls hilfreich.
    • Ich frage mich, ob man dieses Modell auch mit dem Befehl ollama run claude verwenden kann.
  • Ich freue mich über dieses Release des Qwen-Teams.
    Kleine Coding-Modelle mit offenen Gewichten sind in bestimmten Branchen wie Finanzen oder Gesundheitswesen nützlich,
    um angepasste Agenten für Entwicklungsteams zu bauen, die keinen Cloud-Zugriff haben.
    Im Westen bedient kaum jemand diesen Markt; Mistral scheint die Ausnahme zu sein.

    • Mistral wirkt wie das einzige Unternehmen, das ein nachhaltiges Geschäftsmodell verfolgt.
      Andere AI-Firmen scheinen eher nur auf kurzfristige Einnahmen aus zu sein.
    • Kleine offene Modelle machen Spaß, aber sie spielen nicht in derselben Liga wie große gehostete Modelle.
      Für ernsthafte Arbeit sollte man in Hardware investieren, auf der man größere Modelle direkt betreiben kann.
    • Stimme zu, aber für echte Industrieanwendungen reichen solche kleinen Modelle nicht aus.
      Auch mit Hardware im Wert von rund 100.000 Dollar kann man größere Modelle On-Premises betreiben.
    • Konkurrenzfähige Open-Weight-Modelle zu bauen ist großartig, aber die Kosten sind zu hoch.
    • In regulierten Branchen frage ich mich, wie man verifizieren soll, dass ein Modell nicht mit bösartigen Daten trainiert wurde.
  • Qwens sprachliche Embedding-Eigenschaften sind interessant.
    Zugehöriger Analyse-Tweet
    Anders als andere Modelle soll Qwen in einem testzentrierten Basin liegen.

  • Ein Qwen-Manager hat auf Twitter eine Umfrage dazu gepostet, welches Modell man als Open Source sehen möchte,
    aber obwohl die 27B-Version am beliebtesten war, wurde sie nicht veröffentlicht.

    • Wie bei 3.5 könnte es über einen Distillation-Prozess schrittweise veröffentlicht werden.
      Die A3B-Struktur beschleunigt die Distillation, daher könnte es bald kommen.
    • 27B ist ein Dense-Modell und aus Marketing-Sicht weniger attraktiv als 35A3B.
      Letzteres wirkt schneller und „smarter“.
    • Vermutlich wird es bald veröffentlicht.
    • Ich persönlich halte die MoE-Struktur für ineffizient.
      Bei gleichem VRAM könnte ein 27B-Dense-Modell mehr Kontext verarbeiten und dadurch qualitativ besser sein.
  • In lokalen Tests habe ich Qwen3.5-35B-A3B häufig verwendet,
    und es war das leistungsstärkste Modell, das auf meiner Hardware lief.
    Besonders beeindruckt haben mich die Quant-Versionen Mudler APEX-I-Quality und Byteshape Q3_K_S-3.40bpw.
    In einer RTX-3060-12GB-Umgebung gab es mehr Speicherreserve und die Geschwindigkeit stieg auf über 40 t/s.

    • Nach verschiedenen Aufgaben ist Qwen3.6 ein viel größerer Sprung als 3.5.
      Es schafft nun auch selbstständig Verbesserungen an Projekten, an denen es vorher hängen geblieben ist.
    • Ich frage mich, welche Quant-Version die beste ist.
  • Auf genau diese Art von AI-Software-Release freue ich mich am meisten.
    Kein überzogenes Risikomarketing, keine Abo-Gebühren, einfach ein Modell, das ich wirklich ausprobieren möchte.

    • Sehe ich genauso. In naher Zukunft hoffe ich, dass lokale Modelle und Hardwareleistung weit genug zulegen,
      um für die meisten Anwendungsfälle praktisch zu werden.
  • Ich frage mich, wie Menschen solche lokalen Modelle tatsächlich nutzen.
    Ich würde gern wissen, welchen Mehrwert sie gegenüber dem Mieten von Tokens bei Anthropic oder OpenAI bieten.

    • Ich verwende Qwen3.5-9B für lokale OCR-Tabellenextraktion.
      Da Dokumentformate sehr unterschiedlich sind, hatte ich früher eine komplizierte regelbasierte Pipeline,
      aber jetzt ist dank der multimodalen Fähigkeiten eine kombinierte Sprach- und Vision-Extraktion möglich.
    • Ich nutze Qwen3.5-4B zusammen mit Frigate, einem FOSS-NVR.
      Für Videoanalyse ist es ausreichend brauchbar, und Textzusammenfassung oder Übersetzung erledige ich mit größeren Modellen.
      Wenn es nicht in Echtzeit sein muss, ist bei Batch-Verarbeitung Qualität wichtiger als Geschwindigkeit.
    • Ich möchte kein Token-Mietmodell für immer verwenden.
      Ich will ein vollständig privates, selbstgehostetes Modell.
      Ich bin die Abschaltungen von SaaS-Diensten leid, daher sollten auch LLMs letztlich in Richtung Self-Hosting gehen.
    • Mit vLLM + qwen3-coder-next habe ich mehrere Millionen Dokumente im Batch verarbeitet.
      Ohne Token-Limits oder Geschwindigkeitsbegrenzungen konnte ich die GPU zu 100 % auslasten.
    • Nicht jede Aufgabe braucht ein SOTA-Modell.
      Ich nutze zum Beispiel Gemma 4 auf dem iPhone als Offline-Übersetzer,
      und es ist schneller und genauer als Apple Translate.
      Für kleine Aufgaben wie JSON-Korrekturen sind lokale Modelle deutlich effizienter.