Qwen3 – die nächste Generation von Sprachmodellen, die tiefer denkt und schneller handelt

(qwenlm.github.io)

8 Punkte von GN⁺ 2025-04-29 | 2 Kommentare | Auf WhatsApp teilen

Qwen3 ist das neueste große Sprachmodell mit bis zu 235B Parametern und zeigt Leistung auf Konkurrenzniveau mit DeepSeek-R1, Grok-3, Gemini-2.5-Pro und weiteren Modellen
Es unterstützt einen hybriden Denkmodus (Thinking/Non-Thinking), mit dem sich die Tiefe der Schlussfolgerung je nach Schwierigkeit der Aufgabe anpassen lässt
Es unterstützt 119 Sprachen und Dialekte, wodurch die globale Einsetzbarkeit deutlich verbessert wird
Durch Pretraining mit 36 Billionen Tokens, also doppelt so vielen Daten wie beim Vorgänger, wurden die Fähigkeiten in Coding, Mathematik und logischem Schlussfolgern verbessert
Es wurde als Open Source unter der Apache 2.0-Lizenz veröffentlicht und kann direkt über Hugging Face, ModelScope, Kaggle und andere Plattformen genutzt werden

Einführung

Qwen3 ist das neueste große Sprachmodell der Qwen-Serie; das wichtigste Flaggschiffmodell ist Qwen3-235B-A22B mit 235B Parametern
Das kleine MoE-Modell Qwen3-30B-A3B zeigt eine Leistung, die QwQ-32B übertrifft, obwohl dort zehnmal mehr Parameter aktiviert werden
Veröffentlicht wurden 6 Dense-Modelle (0.6B, 1.7B, 4B, 8B, 14B, 32B) und 2 MoE-Modelle (30B, 235B) unter der Apache 2.0-Lizenz

Hauptmerkmale

Hybrider Denkmodus
- Thinking-Modus: Ein Modus, der bei komplexen Problemen schrittweises Schlussfolgern ausführt
- Non-Thinking-Modus: Ein Modus, der bei einfachen Problemen mit Bedarf an schnellen Antworten sofortige Antworten liefert
- Je nach Aufgabe lässt sich das Reasoning-Budget anpassen, um Kosteneffizienz und Qualität zu optimieren
Mehrsprachige Unterstützung
- Die Unterstützung von 119 Sprachen und Dialekten stärkt das Potenzial für die Erweiterung globaler Anwendungen
- Wichtige unterstützte Sprachfamilien: indoeuropäische Sprachen, sinotibetische Sprachen, afroasiatische Sprachen, austronesische Sprachen, dravidische Sprachen und weitere
Verbesserte Agent-Funktionen
- Optimiert für Coding- und Agent-Fähigkeiten
- Integriert mit Qwen-Agent, um die Fähigkeiten für Tool-Calling maximal auszubauen

Vortraining

Das Pretraining wurde mit 36 Billionen Tokens durchgeführt, also doppelt so vielen wie bei Qwen2.5
Durch das Sammeln von Web- und PDF-ähnlichen Dokumentdaten wurde ein vielfältiger hochwertiger Datensatz aufgebaut
Daten aus den Bereichen STEM, Coding und Mathematik wurden verstärkt, um die allgemeinen Schlussfolgerungsfähigkeiten zu verbessern

Nachtraining

Es kommt eine 4-stufige Pipeline zum Einsatz (CoT-Start → Reinforcement Learning → Fusion der Denkmodi → allgemeines Reinforcement Learning)
Das Modell wurde so optimiert, dass es logisches Schlussfolgern und schnelle Antworten gleichzeitig leisten kann
Durch Reinforcement Learning über mehr als 20 allgemeine Domain-Tasks wurden Allgemeinheit und Stabilität verbessert

Entwicklung mit Qwen3

Unterstützung für verschiedene Frameworks wie Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp und weitere
Der Thinking-Modus lässt sich im Code einfach ein-/ausschalten; auch ein Wechsel während des Gesprächs ist mit den Befehlen /think und /no_think möglich

Verwendung als Agent

Mit Qwen-Agent lassen sich unter Verwendung von MCP-Konfigurationsdateien oder integrierten Tools komplexe Agent-Systeme aufbauen
Es ist möglich, direkt einen OpenAI-API-kompatiblen Server aufzusetzen und lokal oder öffentlich bereitzustellen

Zukünftige Arbeit

Qwen3 markiert einen wichtigen Meilenstein auf dem Weg zu Artificial General Intelligence (AGI) und Artificial Superintelligence (ASI) und erreicht durch die Skalierung von Pretraining und Reinforcement Learning ein höheres Intelligenzniveau
Durch Verbesserungen an Modellarchitektur und Trainingsmethodik zielt es auf Datenskalierung, größere Modelle, längere Kontextfenster, erweiterte Modalitäten und langfristiges Schlussfolgern durch Umgebungsfeedback ab
Der Fokus verschiebt sich von einer Ära des modellzentrierten Trainings zu einer Ära des agentenzentrierten Trainings; die nächste Version soll für Arbeit und Alltag aller Menschen bedeutende Fortschritte bringen

2 Kommentare

iwanhae 2025-04-29

Große Modelle sind zwar auch interessant, aber die kleineren Modelle finde ich noch spannender.
Es sieht so aus, als würde das 0,6B-Modell ungefähr die Leistung erreichen, die bei vielen anderen Modellen eher bei 7B liegt.

GN⁺ 2025-04-29

Hacker-News-Kommentare

Es wurde ein physikbasiertes Problem LLMs vorgelegt, das selbst für Menschen schwierig ist. GPT o3, Claude 3.7 und Gemini 2.5 Pro konnten die richtige Antwort zunächst alle nicht finden. Qwen3 lag noch weiter daneben.
Die Dokumentation ist gut, und Support für die wichtigsten Inference-Stacks ist vom ersten Tag an verfügbar. Es gibt verschiedene Größen zur Auswahl. Mit den Community-Quantisierungsleuten wurde bereits zusammengearbeitet.
Die Leistung wurde noch nicht getestet, aber allein die Aufmerksamkeit für die Details drumherum macht dies zu einem großartigen Release. Im Vergleich zu Metas Llama 4 sollte das der Standard sein.
Die Benchmark-Ergebnisse sind so gut, dass sie kaum glaubhaft wirken. Das 30B-Modell konkurriert mit Gemini 2.5 Pro und ist deutlich besser als Gemma 27B.
Es erscheinen viele Open-Weight-Modelle, und ich frage mich, ob es eine Möglichkeit gibt herauszufinden, welches auf einer Standard-Desktop-GPU mit vernünftiger Geschwindigkeit laufen würde. Ich nutze eine Quadro RTX 4000 und weiß nicht, welches der Modelle in den verschiedenen Größen schnell wäre.
Es ist möglich, dass Qwen- und DeepSeek-Modelle im Einklang mit dem Weltbild der CCP trainiert wurden, aber in der Praxis hat das keine Probleme verursacht. Dazu gibt es nicht viel Forschung.
Ich freue mich am meisten auf Qwen-30B-A3B. Es scheint sich gut als Offline-/lokaler Coding-Assistent zu eignen. Bisher waren Open-Weight-Modelle entweder leistungsschwach oder zu langsam.
Ich suche nach Erkenntnissen darüber, wie man Reasoning-Modelle am besten vergleicht. Für kreative Antworten werden hohe Temperaturen empfohlen, für logische und deterministische Ausgaben niedrige. Ich bin mir aber nicht sicher, ob das auf Reasoning-Modelle anwendbar ist.
Es ist interessant, dass das 0.6B-LLM ein 32k-Kontextfenster hat. Das könnte ein unterhaltsames Basismodell für Fine-Tuning sein. Auf Hugging Face hat es die meisten Downloads und Likes.
Diese Modelle scheinen viel nachzudenken. Die Benchmarks wurden mit einem Denkbudget von 32k Token durchgeführt. A3B übertrifft insbesondere QWQ und könnte für CPU-Inference nützlich sein.
Die Leistungswerte sind sehr beeindruckend. MoE übertrifft o1 mit 3B aktiven Parametern. Lokale Modelle werden gut genug, um die meisten Aufgaben bewältigen zu können.