6 Punkte von GN⁺ 2026-02-04 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Qwen3-Coder-Next ist ein Open-Weight-Sprachmodell, das für Code-generierende Agenten und lokale Entwicklungsumgebungen entwickelt wurde und auf hybrider Attention sowie einer MoE-Architektur basiert
  • Es wurde durch umfangreiche Synthese ausführbarer Aufgaben, Interaktion mit Umgebungen und Reinforcement Learning trainiert und verfügt dadurch auch bei niedrigen Inferenzkosten über starke Coding- und Agentenfähigkeiten
  • Statt einer bloßen Skalierung der Parameter liegt der Fokus auf der Skalierung von Agenten-Trainingssignalen; mithilfe verifizierbarer Coding-Aufgaben und ausführbarer Umgebungen lernt es direkt aus Feedback
  • Auf SWE-Bench Verified erreicht es über 70 % und zeigt auch auf SWE-Bench Pro sowie in mehrsprachigen Umgebungen eine Leistung, die mit großen Modellen konkurrieren kann
  • Trotz seiner kompakten Größe erreicht das Modell ein Pareto-Gleichgewicht aus Effizienz und Leistung und ist damit besonders relevant für kosteneffiziente Agenten-Deployments

Überblick über Qwen3-Coder-Next

  • Qwen3-Coder-Next ist ein Open-Weight-Sprachmodell auf Basis von Qwen3-Next-80B-A3B-Base
    • Es verwendet hybride Attention und eine Mixture-of-Experts-(MoE)-Architektur
    • Das Training erfolgte durch groß angelegte Synthese ausführbarer Aufgaben, Umgebungsinteraktion und Reinforcement Learning
  • Ziel ist die effiziente Nutzung in Coding-Agenten und lokalen Entwicklungsumgebungen
    • Es bietet starke Reasoning-Fähigkeiten und Coding-Performance bei niedrigen Inferenzkosten

Ansatz zur Skalierung des Agenten-Trainings

  • Das Modell konzentriert sich stärker auf die Skalierung von Agenten-Trainingssignalen als auf die Skalierung der Parameterzahl
    • Durch die Kombination verifizierbarer Coding-Aufgaben mit ausführbaren Umgebungen lernt es direkt aus Umgebungsfeedback
  • Wichtige Trainingsphasen
    • Fortlaufendes Pretraining mit code- und agentenfokussierten Daten
    • Supervised Fine-Tuning mit hochwertigen Agenten-Trajektoriendaten
    • Fachspezifisches Training für Bereiche wie Software Engineering, QA und Web/UX
    • Destillation mehrerer Expertenmodelle in ein einzelnes, deploybares Modell
  • Dieser Ansatz stärkt Fähigkeiten für langfristiges Reasoning, Tool-Nutzung und Wiederherstellung nach Ausführungsfehlern

Benchmark-Leistung für Coding-Agenten

  • Bewertet auf verschiedenen Benchmarks wie SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0 und Aider
    • Auf SWE-Bench Verified werden über 70 % erreicht
    • Auch auf SWE-Bench Pro und in mehrsprachigen Umgebungen bleibt das Modell konkurrenzfähig
    • Trotz einer kleinen Zahl aktiver Parameter erreicht es eine Leistung auf oder über dem Niveau größerer Open-Source-Modelle
  • Bei Multi-Turn-Agentenaufgaben zeigt sich, dass mit steigender Zahl an Agenten-Turns auch die Fähigkeit zu langfristigem Reasoning zunimmt

Balance zwischen Effizienz und Leistung

  • Qwen3-Coder-Next (3B active) erreicht auf SWE-Bench-Pro eine ähnliche Leistung wie 10- bis 20-mal größere Modelle
  • Proprietäre Modelle auf Basis vollständiger Attention liegen bei der absoluten Leistung zwar vorn, doch Qwen3-Coder-Next positioniert sich bei der Kosteneffizienz auf einer überlegenen Pareto-Frontier
  • Das zeigt, dass das Modell gut für kosteneffiziente Agenten-Deployments geeignet ist

Demos und Anwendungsbeispiele

  • Als kompaktes und schnelles Coder-Modell kann es in verschiedene Anwendungsszenarien integriert werden
    • Demonstriert in OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use und Cline
    • Webbasierte Nutzung ist über coder.qwen.ai möglich

Zusammenfassung und Ausblick

  • Qwen3-Coder-Next hat hohe Geschwindigkeit und starke Reasoning-Fähigkeiten in Benchmarks für Coding-Agenten bewiesen
  • Im Vergleich zu großen Open-Source-Modellen zeigt es wettbewerbsfähige Leistung, bietet aber weiterhin Raum für Verbesserungen
  • Künftig sollen Tool-Nutzung, Lösen komplexer Probleme und Entscheidungsfähigkeit weiter ausgebaut werden
    • Außerdem sind Unterstützung für mehr Aufgaben und schnelle Updates auf Basis von Nutzerfeedback geplant

Noch keine Kommentare.

Noch keine Kommentare.