- Qwen3-Coder erreicht mit einer Mixture-of-Experts-Architektur mit 480B Parametern, 35B aktiven Parametern und Unterstützung für 256K~1M Token Kontext unter den offenen Modellen die Spitzenleistung im agentischen Coding
- Durch den Einsatz großskaliger Reinforcement-Learning-Verfahren, die für reale Software-Engineering-Probleme optimiert sind, darunter Code RL und Long-Horizon RL, wurden die Erfolgsquote bei der Ausführung und die Leistung in vielfältigen Aufgaben deutlich verbessert
- Anbindung an Kommandozeilen-Tools und APIs wie Qwen Code und Claude Code; sofort einsetzbar in verschiedenen Entwicklungsumgebungen wie Node.js und mit einer OpenAI-kompatiblen API
- Mit einer groß angelegten Parallelumgebung und Infrastruktur kann das Modell sogar komplexe Interaktionen bewältigen, die in realen Coding-Aufgaben erforderlich sind, etwa Planung, Feedback und Tool-Nutzung
- Für die Zukunft werden Experimente und Weiterentwicklungen angekündigt, darunter mehr Modellgrößen, kostengünstigere Bereitstellung und die Möglichkeit zur Selbstverbesserung von Coding Agents
Qwen3-Coder
- Qwen3-Coder ist ein Open-Source-AI-Modell, bei dem die agentischen Fähigkeiten unter den bisherigen Modellen zur Codegenerierung am stärksten ausgebaut wurden
- Die erste veröffentlichte Hauptversion, Qwen3-Coder-480B-A35B-Instruct, nutzt eine Mixture-of-Experts-Architektur, bei der von 480 Milliarden Parametern 35 Milliarden aktiv sind
- Unterstützt standardmäßig einen 256K-Token-Kontext und kann auf 1M Token erweitert werden
- Dank seiner starken Leistung zeigte das Modell bei wichtigen Benchmarks wie Agentic Coding, Browser-Use und Tool-Use Ergebnisse auf höchstem Niveau unter den offenen Modellen und liefert bei Code- und Agent-Aufgaben eine mit Claude Sonnet 4 vergleichbare Qualität
- Das gleichzeitig veröffentlichte CLI-Tool Qwen Code ist ein Fork auf Basis von Gemini Code und verwendet spezielle Prompts sowie ein Funktionsaufruf-Protokoll, damit die agentischen Fähigkeiten von Qwen3-Coder optimal zur Geltung kommen
- Qwen3-Coder lässt sich außerdem nahtlos mit verschiedenen Community-Entwicklertools wie dem OpenAI SDK und Claude Code integrieren
- Ziel ist es, als allgemeines Basismodell agentisches Coding in der gesamten Softwarewelt zu ermöglichen
Vortraining (Pre-Training)
- Token-Skalierung: Insgesamt wurden 7,5 Billionen Token verwendet (davon 70 % Code), wodurch neben den Coding-Fähigkeiten auch allgemeine und mathematische Fähigkeiten ausgewogen gestärkt wurden
- Erweiterung des Kontextfensters: Standardmäßig 256K, mit YaRN-basierter Unterstützung für 1M Token, sodass auch dynamische Daten auf dem Niveau großer Repositories (z. B. Pull Requests) verarbeitet werden können
- Verbesserung der Qualität synthetischer Daten: Die Gesamtdatenqualität wurde deutlich verbessert, indem mit dem bisherigen Qwen2.5-Coder entrauschte und umgeschriebene Daten genutzt wurden
Nachtraining (Post-Training)
-
Ausbau von Code-Reinforcement-Learning (Code RL): schwer zu lösen, leicht zu verifizieren
- Anders als der wettbewerbsorientierte Ansatz der Code-Generierungs-Community wird für alle Coding-Aufgaben ein Verfahren gewählt, das auf großskaligem Reinforcement Learning (RL) mit Ausführung/Verifikation basiert
- Für vielfältige reale Coding-Aufgaben wurden automatisierte Testfälle ausgebaut, große Mengen an RL-Trainingsinstanzen erzeugt und die Erfolgsrate maximiert
- Es zeigte sich, dass dieser Ansatz nicht nur die Erfolgsquote bei der Codeausführung steigert, sondern auch die Leistung bei anderen Aufgaben verbessert
- Auch künftig soll der Fokus auf neuen Bereichen liegen, die schwer zu lösen, aber leicht zu verifizieren sind
-
Long-Horizon Reinforcement Learning
- Bei realen Software-Engineering-Aufgaben wie in SWE-Bench sind Planung, Tool-Nutzung, Verarbeitung von Feedback und Entscheidungsfindung sowie Interaktionen über mehrere Turns unverzichtbar
- Qwen3-Coder führt Long-Horizon RL (Agent RL) ein und wurde darauf trainiert, in realen Umgebungen mit Tools zu interagieren und Multi-Turn-Aufgaben zu lösen
- Auf der Infrastruktur von Alibaba Cloud wurden 20.000 unabhängige Parallelumgebungen aufgebaut, die großskaliges Reinforcement Learning und Echtzeit-Evaluierung unterstützen
- Im Benchmark SWE-Bench Verified wurde die beste Leistung unter den Open-Source-Modellen erreicht
Verwendung von Qwen3-Coder
-
Qwen Code: agentisches Coding über die Kommandozeile
- Qwen Code ist ein zu Forschungszwecken entwickeltes CLI-Tool, das auf Gemini CLI basiert und zusätzlich einen Qwen-Coder-spezifischen Parser sowie Tools unterstützt
- Es erfordert eine Node.js 20+-Umgebung und lässt sich über npm einfach installieren und ausführen
- Es unterstützt das Protokoll des OpenAI SDK und kann über Umgebungsvariablen oder eine
.env-Datei konfiguriert werden, sodass es in verschiedensten LLM-Infrastrukturen genutzt werden kann
- Mit dem Befehl Qwen-Code lässt sich die Leistungsfähigkeit von Qwen3-Coder bequem nutzen
-
Integration mit Claude Code
- Qwen3-Coder kann auch in der Claude Code-Umgebung verwendet werden
- Ein API-Schlüssel kann in Alibaba Cloud Model Studio erstellt und für die Integration mit Claude Code verwendet werden
- Unterstützt werden verschiedene Backend-Modelle und eine einfache Konfiguration über eine Proxy-API sowie das Paket claude-code-config
-
Integration mit Cline
- Qwen3-Coder-480B-A35B-Instruct kann auch in der Entwicklungsumgebung Cline konfiguriert und verwendet werden
- Als API Provider wird OpenAI Compatible gewählt; außerdem werden der von Dashscope erhaltene API Key und eine Custom Base URL angegeben
Anwendungsfälle (Use Cases)
- Physikbasierte Simulation einer Schornsteinsprengung
- Beispiel für die integrierte Nutzung von Qwen + Cline
- Webentwicklung auf Basis von Qwen Chat
- Messung der Tippgeschwindigkeit mit berühmten Zitaten
- Simulation eines springenden Balls in einem rotierenden Hyperwürfel
- Simulation der Umgebung des Sonnensystems
- Erstellung des Spiels DUET sowie weitere vielfältige Coding- und Simulationsbeispiele
API-Integration
- Über Alibaba Cloud Model Studio lässt sich die API von Qwen3-Coder direkt nutzen
- Mit dem Python OpenAI SDK wird dialogbasierte Codegenerierung über die Qwen API demonstriert
Zukünftige Entwicklungsrichtung
- Zur Verbesserung der Leistung von Coding Agents und zur Übernahme komplexer und repetitiver Aufgaben im Software Engineering wird aktiv weiter geforscht
- Die Veröffentlichung von weiteren Modellgrößen wird vorbereitet, zugleich wird auf geringere Bereitstellungskosten hingearbeitet
- Angestrebt wird unter anderem die Möglichkeit zur Selbstverbesserung von Coding Agents, um letztlich die menschliche Produktivität bei komplexen und repetitiven Software-Engineering-Aufgaben maximal zu steigern
1 Kommentare
Hacker-News-Kommentare
Ich erstelle gerade GGUFs von 2bit bis 8bit, damit man sie lokal nutzen kann
Sie werden innerhalb einer Stunde unter HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF verfügbar sein
Die Ausführungsdokumentation für 24GB GPU und 128–256GB RAM gibt es hier
Statt „Recommended context: 65,536 tokens (can be increased)“ heißt es in der offiziellen Doku zur Ausgabelänge: „We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models“
Es ist also die empfohlene Ausgabelänge
Qwen3-Coder erscheint zwar in mehreren Größen, aber ich freue mich persönlich am meisten auf die kleineren Varianten
Ich denke, Modelle, die sich leicht lokal ausführen lassen, werden immer besser darin, brauchbaren Code zu schreiben
Fürs Erste braucht man vielleicht noch größere Modelle, aber wenn Self-Hosting praktisch schwierig ist, ist es gut, aus hochwertigen Open-Weights-Modellen wählen zu können
Es ist auch eine gute Erfahrung, kleine Modelle frei auszuprobieren und bei Bedarf größere Modelle kostenpflichtig zu nutzen
Glückwunsch an das Qwen-Team zu diesem Release, ich werde es direkt ausprobieren
Große Modelle haben viel mehr Wissen und sind deutlich smarter
Kleine Modelle verbessern sich zwar, aber große Modelle verbessern sich ebenfalls
HN war einmal das technische Zentrum der LLM-Welt, aber inzwischen betreiben auf Reddit mehr Nutzer selbst riesige Modelle
Wenn man sich informiert und es ausprobiert, ist Self-Hosting durchaus realistisch
Die App „qwen-code“ sieht wie ein Fork von gemini-cli aus
QwenLM/qwen-code
Lizenz
Ich hoffe, dass sich OSS-CC-Klone (Open Source Code Companion) irgendwann auf einen Standard einigen
Auf der Seite steht tatsächlich ausdrücklich: „we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code“
Ich nutze aktuell hauptsächlich claude-code, lasse aber schwerere Inferenz über zen mcp von openai und gemini pro erledigen
gemini-cli wird auch von zen unterstützt, also könnte man es stattdessen verwenden, und wenn qwen-coder auf gemini-cli basiert, dürfte zusätzlicher Support kaum schwierig sein
Wir haben bereits Ende 2024 RA.Aid veröffentlicht
Das ist ein CLI-first-Projekt mit echter Open-Source-Community-Ausrichtung, das einen Schritt weitergeht als die Richtung, die aider eingeschlagen hat
Fünf unabhängige Maintainer aus unterschiedlichen Unternehmen haben vollen Commit-Zugriff (einer ist zu Gobii gewechselt, wo ich arbeite, und entwickelt gerade einen Web-Browsing-Agenten)
Ich denke, dass wir im Vergleich zu Cursor, Windsurf und anderen agentic-coding-Lösungen absolut konkurrenzfähig sind
Es braucht unbedingt einen FOSS-basierten Standard, der nicht von einem bestimmten Großunternehmen oder Modell abhängt
Soweit ich weiß, wird auch Claude Code unterstützt, aber das ist doch Closed Source und auf Anthropic-API-Endpunkte beschränkt — ich frage mich, wie das konkret funktioniert
Ich würde auch gern mein Projekt Plandex vorstellen
Es wurde vor Claude Code gestartet und unterstützt nicht nur Modellkombinationen mehrerer Anbieter (Anthropic, Google, OpenAI), sondern auch Open-Source- und lokale Modelle
Der Fokus liegt besonders auf großem Kontext und langfristigen Aufgaben mit vielen Schritten
plandex-ai/plandex GitHub
Es gibt den Vorschlag,
QWEN.mdals Agenten-Anleitung ins Repository aufzunehmenAber in Team-Repositories vermehren sich derzeit ineffizienterweise doppelte Markdown-Dateien für jeden einzelnen Agenten
Alle Anleitungen sind identisch, deshalb braucht man keine separaten Dateien pro Modell
Außerdem schließe ich modellbezogene Versionen per gitignore aus
Ich frage mich, wie man mit dieser Geschwindigkeit der Veränderungen Schritt halten soll
Man hofft fast, dass es in 2–3 Jahren ein einziges Sieger-Tool geben wird
Dann würden wahrscheinlich alle ohne Zögern nur noch dieses eine nutzen
Menschen bleiben bei Themen, die sie interessieren, ganz automatisch auf dem Laufenden
Am Wochenende habe ich Kimi K2 ausprobiert, in den letzten zwei Tagen lief bei mir Ernie4.5-300B
Heute Morgen habe ich das aktuelle Qwen3-235b heruntergeladen und fange heute Abend damit an
Heute Nacht lade ich Qwen3-Coder-480B herunter — bei meiner Internetgeschwindigkeit dauert das wohl 2–3 Tage
Ist das schon Obsession?
Ignoriere es einfach, bis es nützlich aussieht
Ehrlich gesagt braucht man keine drei Jahre Erfahrung, um Text in eine Prompt-Box einzugeben, also muss man sich darüber nicht allzu viele Gedanken machen
Man muss sich damit nicht beschäftigen
Solange nicht Themen wie Rentabilität dazwischenfunken, wird irgendwann ein klar dominantes Tool auftauchen
Warum glaubst du das?
Die Leaderboards in diesem Bereich sind extrem instabil, und es gibt keine Anzeichen, dass diese Instabilität so schnell verschwindet
Ich denke, in 2–3 Jahren wird die Lage ähnlich sein, nur mit etwas anderen Akteuren
Ich frage mich, welche Hardware man braucht, um Qwen3-Coder-480B-A35B-Instruct auszuführen
Wenn die Leistung an Sonnet herankommt, könnten sich viele Claude-Code-Nutzer für lokales Laufenlassen interessieren
Ich frage mich, ob es wirtschaftlich sinnvoll sein könnte, eine lokale Instanz im Team gemeinsam zu nutzen
Es gibt auch eine Anleitung zur Nutzung mit Claude Code
Auf X (Twitter) sieht man oft Fälle, in denen massive Nutzungsrechnungen geteilt werden
Ich bereite gerade dynamische GGUF-Quantisierungen für Deep-Learning-Modelle vor
Mit ungefähr 24GB VRAM + 128GB RAM sollte 2bit dynamisch möglich sein, und ich werde das innerhalb einer Stunde veröffentlichen
Referenzdokumentation: docs.unsloth.ai/basics/qwen3-coder
Die 4bit-Version nutzt auf einem 512GB M3 Mac Studio etwa 272GB RAM
Download-Link
Video vom tatsächlichen Betrieb: X-Video
Diese Maschine kostet etwa 10.000 Dollar
Für die unquantisierte, nicht destillierte Version braucht man den Benchmarks nach wohl einen Cluster mit etwa 8 H200
Die neueren B200 sind schneller, aber deutlich teurer
Vermutlich über 300.000 Dollar
Wenn Leute quantisierte oder destillierte Versionen herausbringen, veröffentlichen sie die Benchmark-Ergebnisse oft nicht mit
Allein beim RAM braucht man schon mehr als 500GB, und wenn man den Kontext berücksichtigt, sollte man zusätzlich 100–200GB Reserve einplanen
In Kombination mit einer 24GB-GPU würde ich etwa 10 Token pro Sekunde erwarten
Es muss nicht unbedingt riesige Hardware sein
Eine RTX Pro 6000 mit 256GB RAM reicht aus
Ein Open-Weights-Modell, das mit Cloud 4 konkurriert, klingt spannend
Durch die MoE-Architektur scheint echtes lokales Ausführen tatsächlich möglich
Man fragt sich nur, wo man 480GB unterbringen soll, um auf diese Leistung zu kommen
Wer hat bitte so viel RAM?
Ich freue mich sehr auf den Coder
Es ist erfreulich, dass bei den wichtigsten aktuellen Benchmarks offenbar überall OpenHands(All-Hands-AI/OpenHands) als Standard-Scaffold verwendet wird
Kaum etwas ist so frustrierend wie öffentliche Benchmarks, bei denen am Ende nur „private scaffold“ steht
Es gibt ein YouTube-Video, in dem robert ausführlich über AllHands spricht
Es ist unglaublich, wie unfähig Cognition dabei wirkt
Sie haben Millionen an Finanzierung bekommen, wurden dann von Cursor und Claude Code abgehängt und verlieren jetzt sogar Marktanteile an ihren eigenen Klon (früher OpenDevin genannt)
Ich habe bestätigt, dass es direkt auf OpenRouter verfügbar ist (openrouter.ai/qwen/qwen3-coder)
Es wäre schön, wenn jemand dafür ein CLI in Rust/Ratatui bauen würde