Qwen3-Coder veröffentlicht – ein innovatives agentisches Code-Modell

(qwenlm.github.io)

3 Punkte von GN⁺ 2025-07-23 | 1 Kommentare | Auf WhatsApp teilen

Qwen3-Coder erreicht mit einer Mixture-of-Experts-Architektur mit 480B Parametern, 35B aktiven Parametern und Unterstützung für 256K~1M Token Kontext unter den offenen Modellen die Spitzenleistung im agentischen Coding
Durch den Einsatz großskaliger Reinforcement-Learning-Verfahren, die für reale Software-Engineering-Probleme optimiert sind, darunter Code RL und Long-Horizon RL, wurden die Erfolgsquote bei der Ausführung und die Leistung in vielfältigen Aufgaben deutlich verbessert
Anbindung an Kommandozeilen-Tools und APIs wie Qwen Code und Claude Code; sofort einsetzbar in verschiedenen Entwicklungsumgebungen wie Node.js und mit einer OpenAI-kompatiblen API
Mit einer groß angelegten Parallelumgebung und Infrastruktur kann das Modell sogar komplexe Interaktionen bewältigen, die in realen Coding-Aufgaben erforderlich sind, etwa Planung, Feedback und Tool-Nutzung
Für die Zukunft werden Experimente und Weiterentwicklungen angekündigt, darunter mehr Modellgrößen, kostengünstigere Bereitstellung und die Möglichkeit zur Selbstverbesserung von Coding Agents

Qwen3-Coder

Qwen3-Coder ist ein Open-Source-AI-Modell, bei dem die agentischen Fähigkeiten unter den bisherigen Modellen zur Codegenerierung am stärksten ausgebaut wurden
Die erste veröffentlichte Hauptversion, Qwen3-Coder-480B-A35B-Instruct, nutzt eine Mixture-of-Experts-Architektur, bei der von 480 Milliarden Parametern 35 Milliarden aktiv sind
- Unterstützt standardmäßig einen 256K-Token-Kontext und kann auf 1M Token erweitert werden
Dank seiner starken Leistung zeigte das Modell bei wichtigen Benchmarks wie Agentic Coding, Browser-Use und Tool-Use Ergebnisse auf höchstem Niveau unter den offenen Modellen und liefert bei Code- und Agent-Aufgaben eine mit Claude Sonnet 4 vergleichbare Qualität

Das gleichzeitig veröffentlichte CLI-Tool Qwen Code ist ein Fork auf Basis von Gemini Code und verwendet spezielle Prompts sowie ein Funktionsaufruf-Protokoll, damit die agentischen Fähigkeiten von Qwen3-Coder optimal zur Geltung kommen
Qwen3-Coder lässt sich außerdem nahtlos mit verschiedenen Community-Entwicklertools wie dem OpenAI SDK und Claude Code integrieren
Ziel ist es, als allgemeines Basismodell agentisches Coding in der gesamten Softwarewelt zu ermöglichen

Vortraining (Pre-Training)

Token-Skalierung: Insgesamt wurden 7,5 Billionen Token verwendet (davon 70 % Code), wodurch neben den Coding-Fähigkeiten auch allgemeine und mathematische Fähigkeiten ausgewogen gestärkt wurden
Erweiterung des Kontextfensters: Standardmäßig 256K, mit YaRN-basierter Unterstützung für 1M Token, sodass auch dynamische Daten auf dem Niveau großer Repositories (z. B. Pull Requests) verarbeitet werden können
Verbesserung der Qualität synthetischer Daten: Die Gesamtdatenqualität wurde deutlich verbessert, indem mit dem bisherigen Qwen2.5-Coder entrauschte und umgeschriebene Daten genutzt wurden

Nachtraining (Post-Training)

Ausbau von Code-Reinforcement-Learning (Code RL): schwer zu lösen, leicht zu verifizieren
- Anders als der wettbewerbsorientierte Ansatz der Code-Generierungs-Community wird für alle Coding-Aufgaben ein Verfahren gewählt, das auf großskaligem Reinforcement Learning (RL) mit Ausführung/Verifikation basiert
- Für vielfältige reale Coding-Aufgaben wurden automatisierte Testfälle ausgebaut, große Mengen an RL-Trainingsinstanzen erzeugt und die Erfolgsrate maximiert
- Es zeigte sich, dass dieser Ansatz nicht nur die Erfolgsquote bei der Codeausführung steigert, sondern auch die Leistung bei anderen Aufgaben verbessert
- Auch künftig soll der Fokus auf neuen Bereichen liegen, die schwer zu lösen, aber leicht zu verifizieren sind
Long-Horizon Reinforcement Learning
- Bei realen Software-Engineering-Aufgaben wie in SWE-Bench sind Planung, Tool-Nutzung, Verarbeitung von Feedback und Entscheidungsfindung sowie Interaktionen über mehrere Turns unverzichtbar
- Qwen3-Coder führt Long-Horizon RL (Agent RL) ein und wurde darauf trainiert, in realen Umgebungen mit Tools zu interagieren und Multi-Turn-Aufgaben zu lösen
- Auf der Infrastruktur von Alibaba Cloud wurden 20.000 unabhängige Parallelumgebungen aufgebaut, die großskaliges Reinforcement Learning und Echtzeit-Evaluierung unterstützen
- Im Benchmark SWE-Bench Verified wurde die beste Leistung unter den Open-Source-Modellen erreicht

Verwendung von Qwen3-Coder

Qwen Code: agentisches Coding über die Kommandozeile
- Qwen Code ist ein zu Forschungszwecken entwickeltes CLI-Tool, das auf Gemini CLI basiert und zusätzlich einen Qwen-Coder-spezifischen Parser sowie Tools unterstützt
- Es erfordert eine Node.js 20+-Umgebung und lässt sich über npm einfach installieren und ausführen
- Es unterstützt das Protokoll des OpenAI SDK und kann über Umgebungsvariablen oder eine .env-Datei konfiguriert werden, sodass es in verschiedensten LLM-Infrastrukturen genutzt werden kann
- Mit dem Befehl Qwen-Code lässt sich die Leistungsfähigkeit von Qwen3-Coder bequem nutzen
Integration mit Claude Code
- Qwen3-Coder kann auch in der Claude Code-Umgebung verwendet werden
- Ein API-Schlüssel kann in Alibaba Cloud Model Studio erstellt und für die Integration mit Claude Code verwendet werden
- Unterstützt werden verschiedene Backend-Modelle und eine einfache Konfiguration über eine Proxy-API sowie das Paket claude-code-config
Integration mit Cline
- Qwen3-Coder-480B-A35B-Instruct kann auch in der Entwicklungsumgebung Cline konfiguriert und verwendet werden
- Als API Provider wird OpenAI Compatible gewählt; außerdem werden der von Dashscope erhaltene API Key und eine Custom Base URL angegeben

Anwendungsfälle (Use Cases)

Physikbasierte Simulation einer Schornsteinsprengung
Beispiel für die integrierte Nutzung von Qwen + Cline
Webentwicklung auf Basis von Qwen Chat
Messung der Tippgeschwindigkeit mit berühmten Zitaten
Simulation eines springenden Balls in einem rotierenden Hyperwürfel
Simulation der Umgebung des Sonnensystems
Erstellung des Spiels DUET sowie weitere vielfältige Coding- und Simulationsbeispiele

API-Integration

Über Alibaba Cloud Model Studio lässt sich die API von Qwen3-Coder direkt nutzen
Mit dem Python OpenAI SDK wird dialogbasierte Codegenerierung über die Qwen API demonstriert

Zukünftige Entwicklungsrichtung

Zur Verbesserung der Leistung von Coding Agents und zur Übernahme komplexer und repetitiver Aufgaben im Software Engineering wird aktiv weiter geforscht
Die Veröffentlichung von weiteren Modellgrößen wird vorbereitet, zugleich wird auf geringere Bereitstellungskosten hingearbeitet
Angestrebt wird unter anderem die Möglichkeit zur Selbstverbesserung von Coding Agents, um letztlich die menschliche Produktivität bei komplexen und repetitiven Software-Engineering-Aufgaben maximal zu steigern

1 Kommentare

GN⁺ 2025-07-23

Hacker-News-Kommentare

Ich erstelle gerade GGUFs von 2bit bis 8bit, damit man sie lokal nutzen kann
Sie werden innerhalb einer Stunde unter HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF verfügbar sein
Die Ausführungsdokumentation für 24GB GPU und 128–256GB RAM gibt es hier
- In der Dokumentation scheint es einen Tippfehler zu geben
  Statt „Recommended context: 65,536 tokens (can be increased)“ heißt es in der offiziellen Doku zur Ausgabelänge: „We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models“
  Es ist also die empfohlene Ausgabelänge
Qwen3-Coder erscheint zwar in mehreren Größen, aber ich freue mich persönlich am meisten auf die kleineren Varianten
Ich denke, Modelle, die sich leicht lokal ausführen lassen, werden immer besser darin, brauchbaren Code zu schreiben
Fürs Erste braucht man vielleicht noch größere Modelle, aber wenn Self-Hosting praktisch schwierig ist, ist es gut, aus hochwertigen Open-Weights-Modellen wählen zu können
Es ist auch eine gute Erfahrung, kleine Modelle frei auszuprobieren und bei Bedarf größere Modelle kostenpflichtig zu nutzen
Glückwunsch an das Qwen-Team zu diesem Release, ich werde es direkt ausprobieren
- Ich glaube nicht, dass kleine Modelle große Modelle in der Praxis oft übertreffen
  Große Modelle haben viel mehr Wissen und sind deutlich smarter
  Kleine Modelle verbessern sich zwar, aber große Modelle verbessern sich ebenfalls
  HN war einmal das technische Zentrum der LLM-Welt, aber inzwischen betreiben auf Reddit mehr Nutzer selbst riesige Modelle
  Wenn man sich informiert und es ausprobiert, ist Self-Hosting durchaus realistisch
Die App „qwen-code“ sieht wie ein Fork von gemini-cli aus
QwenLM/qwen-code
Lizenz
Ich hoffe, dass sich OSS-CC-Klone (Open Source Code Companion) irgendwann auf einen Standard einigen
Auf der Seite steht tatsächlich ausdrücklich: „we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code“
- Ich nutze aktuell hauptsächlich claude-code, lasse aber schwerere Inferenz über zen mcp von openai und gemini pro erledigen
  gemini-cli wird auch von zen unterstützt, also könnte man es stattdessen verwenden, und wenn qwen-coder auf gemini-cli basiert, dürfte zusätzlicher Support kaum schwierig sein
- Wir haben bereits Ende 2024 RA.Aid veröffentlicht
  Das ist ein CLI-first-Projekt mit echter Open-Source-Community-Ausrichtung, das einen Schritt weitergeht als die Richtung, die aider eingeschlagen hat
  Fünf unabhängige Maintainer aus unterschiedlichen Unternehmen haben vollen Commit-Zugriff (einer ist zu Gobii gewechselt, wo ich arbeite, und entwickelt gerade einen Web-Browsing-Agenten)
  Ich denke, dass wir im Vergleich zu Cursor, Windsurf und anderen agentic-coding-Lösungen absolut konkurrenzfähig sind
  Es braucht unbedingt einen FOSS-basierten Standard, der nicht von einem bestimmten Großunternehmen oder Modell abhängt
- Soweit ich weiß, wird auch Claude Code unterstützt, aber das ist doch Closed Source und auf Anthropic-API-Endpunkte beschränkt — ich frage mich, wie das konkret funktioniert
- Ich würde auch gern mein Projekt Plandex vorstellen
  Es wurde vor Claude Code gestartet und unterstützt nicht nur Modellkombinationen mehrerer Anbieter (Anthropic, Google, OpenAI), sondern auch Open-Source- und lokale Modelle
  Der Fokus liegt besonders auf großem Kontext und langfristigen Aufgaben mit vielen Schritten
  plandex-ai/plandex GitHub
Es gibt den Vorschlag, QWEN.md als Agenten-Anleitung ins Repository aufzunehmen
Aber in Team-Repositories vermehren sich derzeit ineffizienterweise doppelte Markdown-Dateien für jeden einzelnen Agenten
- Ich füge einfach einen symbolischen Link zu AGENTS.md hinzu
  Alle Anleitungen sind identisch, deshalb braucht man keine separaten Dateien pro Modell
  Außerdem schließe ich modellbezogene Versionen per gitignore aus
Ich frage mich, wie man mit dieser Geschwindigkeit der Veränderungen Schritt halten soll
Man hofft fast, dass es in 2–3 Jahren ein einziges Sieger-Tool geben wird
Dann würden wahrscheinlich alle ohne Zögern nur noch dieses eine nutzen
- Menschen bleiben bei Themen, die sie interessieren, ganz automatisch auf dem Laufenden
  Am Wochenende habe ich Kimi K2 ausprobiert, in den letzten zwei Tagen lief bei mir Ernie4.5-300B
  Heute Morgen habe ich das aktuelle Qwen3-235b heruntergeladen und fange heute Abend damit an
  Heute Nacht lade ich Qwen3-Coder-480B herunter — bei meiner Internetgeschwindigkeit dauert das wohl 2–3 Tage
  Ist das schon Obsession?
- Ignoriere es einfach, bis es nützlich aussieht
  Ehrlich gesagt braucht man keine drei Jahre Erfahrung, um Text in eine Prompt-Box einzugeben, also muss man sich darüber nicht allzu viele Gedanken machen
- Man muss sich damit nicht beschäftigen
  Solange nicht Themen wie Rentabilität dazwischenfunken, wird irgendwann ein klar dominantes Tool auftauchen
- Warum glaubst du das?
  Die Leaderboards in diesem Bereich sind extrem instabil, und es gibt keine Anzeichen, dass diese Instabilität so schnell verschwindet
  Ich denke, in 2–3 Jahren wird die Lage ähnlich sein, nur mit etwas anderen Akteuren
Ich frage mich, welche Hardware man braucht, um Qwen3-Coder-480B-A35B-Instruct auszuführen
Wenn die Leistung an Sonnet herankommt, könnten sich viele Claude-Code-Nutzer für lokales Laufenlassen interessieren
Ich frage mich, ob es wirtschaftlich sinnvoll sein könnte, eine lokale Instanz im Team gemeinsam zu nutzen
Es gibt auch eine Anleitung zur Nutzung mit Claude Code
Auf X (Twitter) sieht man oft Fälle, in denen massive Nutzungsrechnungen geteilt werden
- Ich bereite gerade dynamische GGUF-Quantisierungen für Deep-Learning-Modelle vor
  Mit ungefähr 24GB VRAM + 128GB RAM sollte 2bit dynamisch möglich sein, und ich werde das innerhalb einer Stunde veröffentlichen
  Referenzdokumentation: docs.unsloth.ai/basics/qwen3-coder
- Die 4bit-Version nutzt auf einem 512GB M3 Mac Studio etwa 272GB RAM
  Download-Link
  Video vom tatsächlichen Betrieb: X-Video
  Diese Maschine kostet etwa 10.000 Dollar
- Für die unquantisierte, nicht destillierte Version braucht man den Benchmarks nach wohl einen Cluster mit etwa 8 H200
  Die neueren B200 sind schneller, aber deutlich teurer
  Vermutlich über 300.000 Dollar
  Wenn Leute quantisierte oder destillierte Versionen herausbringen, veröffentlichen sie die Benchmark-Ergebnisse oft nicht mit
- Allein beim RAM braucht man schon mehr als 500GB, und wenn man den Kontext berücksichtigt, sollte man zusätzlich 100–200GB Reserve einplanen
  In Kombination mit einer 24GB-GPU würde ich etwa 10 Token pro Sekunde erwarten
- Es muss nicht unbedingt riesige Hardware sein
  Eine RTX Pro 6000 mit 256GB RAM reicht aus
Ein Open-Weights-Modell, das mit Cloud 4 konkurriert, klingt spannend
Durch die MoE-Architektur scheint echtes lokales Ausführen tatsächlich möglich
- Man fragt sich nur, wo man 480GB unterbringen soll, um auf diese Leistung zu kommen
  Wer hat bitte so viel RAM?
- Ich freue mich sehr auf den Coder
Es ist erfreulich, dass bei den wichtigsten aktuellen Benchmarks offenbar überall OpenHands(All-Hands-AI/OpenHands) als Standard-Scaffold verwendet wird
Kaum etwas ist so frustrierend wie öffentliche Benchmarks, bei denen am Ende nur „private scaffold“ steht
- Es gibt ein YouTube-Video, in dem robert ausführlich über AllHands spricht
- Es ist unglaublich, wie unfähig Cognition dabei wirkt
  Sie haben Millionen an Finanzierung bekommen, wurden dann von Cursor und Claude Code abgehängt und verlieren jetzt sogar Marktanteile an ihren eigenen Klon (früher OpenDevin genannt)
Ich habe bestätigt, dass es direkt auf OpenRouter verfügbar ist (openrouter.ai/qwen/qwen3-coder)
Es wäre schön, wenn jemand dafür ein CLI in Rust/Ratatui bauen würde

Qwen3-Coder veröffentlicht – ein innovatives agentisches Code-Modell

Qwen3-Coder

Vortraining (Pre-Training)

Nachtraining (Post-Training)

Ausbau von Code-Reinforcement-Learning (Code RL): schwer zu lösen, leicht zu verifizieren

Long-Horizon Reinforcement Learning

Verwendung von Qwen3-Coder

Qwen Code: agentisches Coding über die Kommandozeile

Integration mit Claude Code

Integration mit Cline

Anwendungsfälle (Use Cases)

API-Integration

Zukünftige Entwicklungsrichtung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare