- Qwen3-Next ist eine neue Modellarchitektur, die entwickelt wurde, um die zukünftigen Trends längere Kontextfenster und mehr Gesamtparameter bei großen Modellen zu unterstützen, und Funktionen bietet, die Trainings- und Inferenz-Effizienz maximieren
- Durch die Einführung eines hybriden Attention-Mechanismus und einer hochgradig spärlichen MoE-Struktur wird die Leistung bei langen Kontexten und großen Parameterkonfigurationen verbessert
- Optimierte Trainingsstabilität und ein Multi-Token-Vorhersagemechanismus beschleunigen die Inferenzgeschwindigkeit
- Das Modell Qwen3-Next-80B-A3B-Base erreicht eine Leistung auf dem Niveau von Qwen3-32B oder darüber, während die Trainingskosten auf unter 10 % reduziert werden
- Die Veröffentlichung dieses Modells bringt der Open-Source-Community fortschrittliche Architektur-Innovationen und schafft eine Grundlage für mehr Intelligenz und Produktivität auf dem Weg zu Qwen3.5
Einleitung
- In der Überzeugung, dass längere Kontextfenster und mehr Gesamtparameter die wichtigsten Trends zukünftiger großer Modelle sind, wurde mit Qwen3-Next eine neue Modellarchitektur entworfen, um die Trainings- und Inferenz-Effizienz bei langen Kontexten und großen Parameterkonfigurationen zu steigern
- Im Vergleich zur MoE-Struktur von Qwen3 wurden mehrere zentrale Verbesserungen eingeführt, darunter ein hybrider Attention-Mechanismus, eine hochgradig spärliche MoE-Struktur, Optimierungen der Trainingsstabilität sowie ein Multi-Token-Vorhersagemechanismus für schnellere Inferenz
- Auf Basis dieser Architektur wurde das Modell Qwen3-Next-80B-A3B-Base trainiert, ein Modell mit 80 Milliarden Parametern, bei dem während der Inferenz nur 3 Milliarden Parameter aktiviert werden
- Dieses Basismodell erreicht eine Leistung auf dem Niveau des dichten Modells Qwen3-32B oder leicht darüber, während es weniger als 10 % der Trainingskosten (GPU-Zeit) benötigt
- Insbesondere bei Kontextlängen über 32K Tokens liefert es mehr als den 10-fachen Durchsatz und erreicht damit extreme Effizienz bei Training und Inferenz
- Auf Basis von Qwen3-Next-80B-A3B-Base wurden zwei Post-Training-Versionen entwickelt und veröffentlicht: Qwen3-Next-80B-A3B-Instruct und Qwen3-Next-80B-A3B-Thinking
- Durch die hybride Attention und die hochgradig spärliche MoE-Architektur wurden langjährige Stabilitäts- und Effizienzprobleme beim Reinforcement-Learning-(RL-)Training gelöst, wodurch sowohl die RL-Trainingsgeschwindigkeit als auch die Endleistung verbessert wurden
- Qwen3-Next-80B-A3B-Instruct zeigt eine Leistung auf dem Niveau des Flaggschiffmodells Qwen3-235B-A22B-Instruct-2507 und weist bei Ultra-Long-Context-Aufgaben mit bis zu 256K Tokens deutliche Vorteile auf
- Qwen3-Next-80B-A3B-Thinking ist bei komplexen Schlussfolgerungsaufgaben herausragend, übertrifft die teureren Modelle Qwen3-30B-A3B-Thinking-2507 und Qwen3-32B-Thinking, schlägt das Closed-Source-Modell Gemini-2.5-Flash-Thinking in mehreren Benchmarks und nähert sich der Leistung des Spitzenmodells Qwen3-235B-A22B-Thinking-2507 an
- Qwen3-Next wurde bereits auf Hugging Face und ModelScope veröffentlicht, und jeder kann den Qwen3-Next-Service über Alibaba Cloud Model Studio und den NVIDIA API Catalog nutzen
Hauptfunktionen
- Hybride Architektur: Gated DeltaNet + Gated Attention nutzt aus, dass lineare Attention die quadratische Komplexität standardmäßiger Attention durchbricht und bei langen Kontexten effizienter ist
- Es wurde festgestellt, dass lineare Attention schnell, aber beim Recall schwächer ist, während Standard-Attention teuer und langsam ist. Durch systematische Experimente wurde bestätigt, dass Gated DeltaNet stärkere In-Context-Learning-Fähigkeiten bietet als gängige Ansätze wie Sliding Window Attention oder Mamba2
- Durch die Mischung von Gated DeltaNet mit Standard-Attention im Verhältnis 3:1 (75 % der Layer verwenden Gated DeltaNet, 25 % behalten Standard-Attention) wurden durchgängig bessere Leistung und Effizienz als mit einzelnen Architekturen erreicht
- In den Standard-Attention-Layern wurde ein Output-Gating-Mechanismus übernommen, um Low-Rank-Probleme der Attention zu verringern, und die Dimension pro Attention-Head wurde von 128 auf 256 erhöht
- Rotary Position Encoding wird nur auf die ersten 25 % der Positionsdimension angewendet, um die Extrapolation auf längere Sequenzen zu verbessern
- Extrem spärliches MoE: nur 3,7 % der Parameter werden aktiviert – Qwen3-Next verwendet ein hochgradig spärliches MoE-Design, bei dem pro Inferenzschritt von insgesamt 80B Parametern nur etwa 3B aktiviert werden
- Experimente zeigen, dass der Trainingsverlust mit zunehmender Gesamtzahl der Expertenparameter bei fixer Zahl aktivierter Experten durch globales Load Balancing stetig sinkt
- Im Vergleich zum MoE von Qwen3 (128 Experten insgesamt, 8 geroutet) skaliert Qwen3-Next auf insgesamt 512 Experten und kombiniert 10 geroutete Experten + 1 Shared Expert, um die Ressourcennutzung zu maximieren, ohne die Leistung zu verschlechtern
- Auf Trainingsstabilität ausgelegte Architektur: Der Output-Gating-Mechanismus der Attention beseitigt Probleme wie Attention Sink und Massive Activation und stellt die numerische Stabilität des gesamten Modells sicher
- Es wurde entdeckt, dass bei dem in Qwen3 verwendeten QK-Norm einige Layer-Norm-Gewichte anomal groß wurden; deshalb verwendet Qwen3-Next Zero-Centered RMSNorm und wendet Weight Decay auf die Normgewichte an, um unendliches Wachstum zu verhindern
- MoE-Router-Parameter werden bei der Initialisierung normalisiert, damit zu Beginn des Trainings jeder Experte ohne Verzerrung ausgewählt werden kann, was Rauschen durch zufällige Initialisierung reduziert
- Dieses auf Stabilität ausgerichtete Design macht kleine Experimente verlässlicher und ermöglicht einen reibungslosen Ablauf von großskaligem Training
- Multi-Token-Vorhersage: Qwen3-Next führt einen nativen Multi-Token-Prediction-(MTP-)Mechanismus ein, der nicht nur MTP-Module mit hoher Akzeptanzrate für Speculative Decoding erzeugt, sondern auch die Gesamtleistung verbessert
- Qwen3-Next optimiert insbesondere die mehrstufige Inferenzleistung von MTP und verbessert die Akzeptanzrate von Speculative Decoding in realen Szenarien zusätzlich durch mehrstufiges Training, das die Konsistenz zwischen Training und Inferenz aufrechterhält
Pre-Training
- Pre-Training-Effizienz und Inferenzgeschwindigkeit: Qwen3-Next wurde auf einer gleichmäßig gesampelten Teilmenge (15T Tokens) des 36T-Token-Pre-Training-Korpus von Qwen3 trainiert
- Es benötigt weniger als 80 % der GPU-Zeit von Qwen3-30A-3B und nur 9,3 % der Rechenkosten von Qwen3-32B, erreicht dabei aber bessere Leistung und zeigt damit hervorragende Trainingseffizienz und hohen Gegenwert
- Dank der hybriden Architektur ist es auch in der Inferenz herausragend und liefert in der Prefill-Phase bei 4K Kontextlänge fast den 7-fachen Durchsatz von Qwen3-32B
- Bei mehr als 32K ist es über 10-mal schneller
- In der Decode-Phase zeigt es bei 4K Kontext fast den 4-fachen Durchsatz und behält auch oberhalb von 32K noch einen Geschwindigkeitsvorteil von über dem 10-Fachen
- Leistung des Basismodells: Qwen3-Next-80B-A3B-Base aktiviert nur ein Zehntel der Nicht-Embedding-Parameter von Qwen3-32B-Base und übertrifft dieses dennoch in den meisten Benchmarks deutlich; gegenüber Qwen3-30B-A3B liegt es klar vorn und belegt damit außergewöhnliche Effizienz und starke Leistung
Post-Training
- Leistung des Instruct-Modells: Qwen3-Next-80B-A3B-Instruct übertrifft Qwen3-30B-A3B-Instruct-2507 und Qwen3-32B-Non-thinking deutlich und erzielt Ergebnisse, die nahezu mit dem Flaggschiff Qwen3-235B-A22B-Instruct-2507 übereinstimmen
- In RULER übertrifft Qwen3-Next-80B-A3B-Instruct das Qwen3-30B-A3B-Instruct-2507 mit seinen zahlreicheren Attention-Layern bei allen Längen und schlägt innerhalb von 256K Kontext sogar das insgesamt tiefere Qwen3-235B-A22B-Instruct-2507, was die Stärke des hybriden Designs aus Gated DeltaNet + Gated Attention für Long-Context-Aufgaben belegt
- Leistung des Thinking-Modells: Qwen3-Next-80B-A3B-Thinking übertrifft die teureren Modelle Qwen3-30B-A3B-Thinking-2507 und Qwen3-32B-Thinking
- In mehreren Benchmarks schlägt es das Closed-Source-Modell Gemini-2.5-Flash-Thinking und nähert sich bei zentralen Kennzahlen dem neuesten Flaggschiffmodell Qwen3-235B-A22B-Thinking-2507 an
Mit Qwen3 entwickeln
- Hugging Face Transformers: Der Qwen3-Next-Code wurde in den Main-Branch von Hugging Face transformers integriert
- In früheren Versionen können Fehler auftreten
- Enthält einen Code-Snippet, der beispielhaft zeigt, was das Modell auf Basis eines gegebenen Eingangs erzeugt
- Multi-Token-Prediction (MTP) ist in Hugging Face Transformers nicht allgemein verfügbar
- Effizienz- oder Durchsatzverbesserungen hängen stark von der Implementierung ab
- Für Inferenzaufgaben wird die Nutzung spezialisierter Inferenz-Frameworks wie SGLang und vLLM empfohlen
- Mit flash-linear-attention und causal-conv1d kann je nach Inferenz-Setup eine bessere Effizienz beobachtet werden
- Detaillierte Anleitungen und Anforderungen finden sich unter den entsprechenden Links
- Für Deployment sollte mit aktuellem sglang oder vllm ein OpenAI-kompatibler API-Endpunkt erstellt werden
- SGLang ist ein schnelles Serving-Framework für große Sprachmodelle und Vision-Language-Modelle, mit dem sich ein Server mit OpenAI-kompatiblem API-Service starten lässt
- SGLang unterstützt Qwen3-Next im Main-Branch und kann aus dem Source Code installiert werden
- Es wird ein Befehl zum Erzeugen eines API-Endpunkts unter http://localhost:30000/v1 mit Tensor Parallelism auf 4 GPUs und maximaler Kontextlänge von 256K Tokens bereitgestellt
- Ein empfohlener Befehl für MTP wird mit ansonsten identischen Einstellungen bereitgestellt
- Derzeit ist die Umgebungsvariable
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 erforderlich
- Die Standard-Kontextlänge beträgt 256K; falls der Serverstart fehlschlägt, sollte ein kleinerer Wert wie 32768 in Betracht gezogen werden
- vLLM ist eine Inferenz- und Serving-Engine für LLMs mit hohem Durchsatz und effizienter Speichernutzung, mit der sich ein Server mit OpenAI-kompatiblem API-Service starten lässt
- vLLM unterstützt Qwen3-Next im Main-Branch und kann aus dem Source Code installiert werden
- Es wird ein Befehl zum Erzeugen eines API-Endpunkts unter http://localhost:8000/v1 mit Tensor Parallelism auf 4 GPUs und maximaler Kontextlänge von 256K Tokens bereitgestellt
- Ein empfohlener Befehl für MTP wird mit ansonsten identischen Einstellungen bereitgestellt
- Derzeit ist die Umgebungsvariable
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 erforderlich
- Die Standard-Kontextlänge beträgt 256K; falls der Serverstart fehlschlägt, sollte ein kleinerer Wert wie 32768 in Betracht gezogen werden
- Agentische Nutzung: Qwen3 ist bei Tool Calling herausragend, und für die maximale Nutzung der Agentenfähigkeiten von Qwen3 wird Qwen-Agent empfohlen
- Qwen-Agent kapselt intern Vorlagen für Tool Calling und einen Tool-Calling-Parser, wodurch die Komplexität der Implementierung stark reduziert wird
- Zur Definition verfügbarer Tools kann eine MCP-Konfigurationsdatei verwendet werden, ebenso integrierte Tools von Qwen-Agent oder eigene integrierte Tools
- Verarbeitung extrem langer Texte: Qwen3-Next unterstützt nativ eine Kontextlänge von bis zu 262.144 Tokens
- Bei Dialogen, deren Gesamtlänge einschließlich Eingabe und Ausgabe diese Grenze deutlich überschreitet, wird empfohlen, RoPE-Skalierungstechniken wie YaRN zu verwenden, um lange Texte effektiv zu verarbeiten
- Die Modellleistung wurde mit YaRN bei Kontextlängen bis zu 1 Million Tokens verifiziert
- YaRN wird derzeit von mehreren Inferenz-Frameworks wie transformers, vllm und sglang unterstützt
- In unterstützten Frameworks gibt es zwei Ansätze zum Aktivieren von YaRN: Änderung der Modelldatei oder Übergabe von Kommandozeilenargumenten
- Das Feld
rope_scaling zur Datei config.json hinzufügen
- Für vllm Kommandozeilenargumente verwenden
- Für sglang Kommandozeilenargumente verwenden
- Alle wichtigen Open-Source-Frameworks implementieren statisches YaRN, wodurch der Skalierungsfaktor unabhängig von der Eingabelänge konstant bleibt, mit potenziellen Auswirkungen auf die Leistung bei kurzen Texten
- Es wird empfohlen, die Einstellung
rope_scaling nur hinzuzufügen, wenn Long-Context-Verarbeitung erforderlich ist
- Es wird empfohlen, den
factor nach Bedarf anzupassen; wenn die typische Kontextlänge einer Anwendung beispielsweise 524.288 Tokens beträgt, sollte factor auf 2.0 gesetzt werden
Zusammenfassung
- Qwen3-Next stellt mit linearer Attention und Attention-Gating einen großen Sprung in der Modellarchitektur dar und erhöht zugleich die Sparsity im MoE-Design
- Qwen3-Next-80B-A3B liefert sowohl im Thinking- als auch im Non-thinking-Modus eine Leistung auf dem Niveau des größeren Qwen3-235B-A22B-2507 und bietet zugleich in Long-Context-Szenarien deutlich schnellere Inferenz
- Mit dieser Veröffentlichung soll die Open-Source-Community durch fortschrittliche Architektur-Innovationen gestärkt werden und sich gemeinsam mit modernsten Architekturfortschritten weiterentwickeln
Noch keine Kommentare.