- Qwen3 ist das neueste große Sprachmodell mit bis zu 235B Parametern und zeigt Leistung auf Konkurrenzniveau mit DeepSeek-R1, Grok-3, Gemini-2.5-Pro und weiteren Modellen
- Es unterstützt einen hybriden Denkmodus (Thinking/Non-Thinking), mit dem sich die Tiefe der Schlussfolgerung je nach Schwierigkeit der Aufgabe anpassen lässt
- Es unterstützt 119 Sprachen und Dialekte, wodurch die globale Einsetzbarkeit deutlich verbessert wird
- Durch Pretraining mit 36 Billionen Tokens, also doppelt so vielen Daten wie beim Vorgänger, wurden die Fähigkeiten in Coding, Mathematik und logischem Schlussfolgern verbessert
- Es wurde als Open Source unter der Apache 2.0-Lizenz veröffentlicht und kann direkt über Hugging Face, ModelScope, Kaggle und andere Plattformen genutzt werden
Einführung
- Qwen3 ist das neueste große Sprachmodell der Qwen-Serie; das wichtigste Flaggschiffmodell ist Qwen3-235B-A22B mit 235B Parametern
- Das kleine MoE-Modell Qwen3-30B-A3B zeigt eine Leistung, die QwQ-32B übertrifft, obwohl dort zehnmal mehr Parameter aktiviert werden
- Veröffentlicht wurden 6 Dense-Modelle (0.6B, 1.7B, 4B, 8B, 14B, 32B) und 2 MoE-Modelle (30B, 235B) unter der Apache 2.0-Lizenz
Hauptmerkmale
-
Hybrider Denkmodus
- Thinking-Modus: Ein Modus, der bei komplexen Problemen schrittweises Schlussfolgern ausführt
- Non-Thinking-Modus: Ein Modus, der bei einfachen Problemen mit Bedarf an schnellen Antworten sofortige Antworten liefert
- Je nach Aufgabe lässt sich das Reasoning-Budget anpassen, um Kosteneffizienz und Qualität zu optimieren
-
Mehrsprachige Unterstützung
- Die Unterstützung von 119 Sprachen und Dialekten stärkt das Potenzial für die Erweiterung globaler Anwendungen
- Wichtige unterstützte Sprachfamilien: indoeuropäische Sprachen, sinotibetische Sprachen, afroasiatische Sprachen, austronesische Sprachen, dravidische Sprachen und weitere
-
Verbesserte Agent-Funktionen
- Optimiert für Coding- und Agent-Fähigkeiten
- Integriert mit Qwen-Agent, um die Fähigkeiten für Tool-Calling maximal auszubauen
Vortraining
- Das Pretraining wurde mit 36 Billionen Tokens durchgeführt, also doppelt so vielen wie bei Qwen2.5
- Durch das Sammeln von Web- und PDF-ähnlichen Dokumentdaten wurde ein vielfältiger hochwertiger Datensatz aufgebaut
- Daten aus den Bereichen STEM, Coding und Mathematik wurden verstärkt, um die allgemeinen Schlussfolgerungsfähigkeiten zu verbessern
Nachtraining
- Es kommt eine 4-stufige Pipeline zum Einsatz (CoT-Start → Reinforcement Learning → Fusion der Denkmodi → allgemeines Reinforcement Learning)
- Das Modell wurde so optimiert, dass es logisches Schlussfolgern und schnelle Antworten gleichzeitig leisten kann
- Durch Reinforcement Learning über mehr als 20 allgemeine Domain-Tasks wurden Allgemeinheit und Stabilität verbessert
Entwicklung mit Qwen3
- Unterstützung für verschiedene Frameworks wie Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp und weitere
- Der Thinking-Modus lässt sich im Code einfach ein-/ausschalten; auch ein Wechsel während des Gesprächs ist mit den Befehlen
/think und /no_think möglich
Verwendung als Agent
- Mit Qwen-Agent lassen sich unter Verwendung von MCP-Konfigurationsdateien oder integrierten Tools komplexe Agent-Systeme aufbauen
- Es ist möglich, direkt einen OpenAI-API-kompatiblen Server aufzusetzen und lokal oder öffentlich bereitzustellen
Zukünftige Arbeit
- Qwen3 markiert einen wichtigen Meilenstein auf dem Weg zu Artificial General Intelligence (AGI) und Artificial Superintelligence (ASI) und erreicht durch die Skalierung von Pretraining und Reinforcement Learning ein höheres Intelligenzniveau
- Durch Verbesserungen an Modellarchitektur und Trainingsmethodik zielt es auf Datenskalierung, größere Modelle, längere Kontextfenster, erweiterte Modalitäten und langfristiges Schlussfolgern durch Umgebungsfeedback ab
- Der Fokus verschiebt sich von einer Ära des modellzentrierten Trainings zu einer Ära des agentenzentrierten Trainings; die nächste Version soll für Arbeit und Alltag aller Menschen bedeutende Fortschritte bringen
2 Kommentare
Große Modelle sind zwar auch interessant, aber die kleineren Modelle finde ich noch spannender.
Es sieht so aus, als würde das 0,6B-Modell ungefähr die Leistung erreichen, die bei vielen anderen Modellen eher bei 7B liegt.
Hacker-News-Kommentare
Es wurde ein physikbasiertes Problem LLMs vorgelegt, das selbst für Menschen schwierig ist. GPT o3, Claude 3.7 und Gemini 2.5 Pro konnten die richtige Antwort zunächst alle nicht finden. Qwen3 lag noch weiter daneben.
Die Dokumentation ist gut, und Support für die wichtigsten Inference-Stacks ist vom ersten Tag an verfügbar. Es gibt verschiedene Größen zur Auswahl. Mit den Community-Quantisierungsleuten wurde bereits zusammengearbeitet.
Die Leistung wurde noch nicht getestet, aber allein die Aufmerksamkeit für die Details drumherum macht dies zu einem großartigen Release. Im Vergleich zu Metas Llama 4 sollte das der Standard sein.
Die Benchmark-Ergebnisse sind so gut, dass sie kaum glaubhaft wirken. Das 30B-Modell konkurriert mit Gemini 2.5 Pro und ist deutlich besser als Gemma 27B.
Es erscheinen viele Open-Weight-Modelle, und ich frage mich, ob es eine Möglichkeit gibt herauszufinden, welches auf einer Standard-Desktop-GPU mit vernünftiger Geschwindigkeit laufen würde. Ich nutze eine Quadro RTX 4000 und weiß nicht, welches der Modelle in den verschiedenen Größen schnell wäre.
Es ist möglich, dass Qwen- und DeepSeek-Modelle im Einklang mit dem Weltbild der CCP trainiert wurden, aber in der Praxis hat das keine Probleme verursacht. Dazu gibt es nicht viel Forschung.
Ich freue mich am meisten auf Qwen-30B-A3B. Es scheint sich gut als Offline-/lokaler Coding-Assistent zu eignen. Bisher waren Open-Weight-Modelle entweder leistungsschwach oder zu langsam.
Ich suche nach Erkenntnissen darüber, wie man Reasoning-Modelle am besten vergleicht. Für kreative Antworten werden hohe Temperaturen empfohlen, für logische und deterministische Ausgaben niedrige. Ich bin mir aber nicht sicher, ob das auf Reasoning-Modelle anwendbar ist.
Es ist interessant, dass das 0.6B-LLM ein 32k-Kontextfenster hat. Das könnte ein unterhaltsames Basismodell für Fine-Tuning sein. Auf Hugging Face hat es die meisten Downloads und Likes.
Diese Modelle scheinen viel nachzudenken. Die Benchmarks wurden mit einem Denkbudget von 32k Token durchgeführt. A3B übertrifft insbesondere QWQ und könnte für CPU-Inference nützlich sein.
Die Leistungswerte sind sehr beeindruckend. MoE übertrifft o1 mit 3B aktiven Parametern. Lokale Modelle werden gut genug, um die meisten Aufgaben bewältigen zu können.