Qwen3-Max-Thinking-Modell vorgestellt

(qwen.ai)

7 Punkte von GN⁺ 2026-01-27 | Noch keine Kommentare. | Auf WhatsApp teilen

Das neueste reasoning-zentrierte Modell steigert seine Leistung in mehreren Bereichen wie Faktenwissen, komplexes Schlussfolgern und Alignment mit menschlichen Präferenzen durch groß angelegtes Reinforcement Learning und Parameterskalierung
In 19 Benchmarks erzielte es Ergebnisse auf einem ähnlichen Niveau wie GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro oder übertraf diese in einigen Bereichen
Durch die Funktion adaptiver Tool-Nutzung ruft es während Gesprächen automatisch Suche, Memory und Code Interpreter auf und unterstützt so weniger Halluzinationen und Zugriff auf Echtzeitinformationen
Mit einer Strategie zur Testzeit-Skalierung (test-time scaling) reduziert es wiederholte Berechnungen während des Schlussfolgerns und steigert die Effizienz durch einen selbstreflexionsbasierten Mechanismus zur Erfahrungssammlung
Sofort über Qwen Chat und API nutzbar; zudem kompatibel mit OpenAI- und Anthropic-APIs, sodass Entwickler es leicht in bestehende Workflows integrieren können

Überblick über Qwen3-Max-Thinking

Qwen3-Max-Thinking ist das neueste Flaggschiff-Reasoning-Modell der Qwen-Serie und skaliert seine Leistung mithilfe von Reinforcement Learning und umfangreichen Rechenressourcen
- Verbesserungen in mehreren Dimensionen wie Faktenwissen, komplexes Schlussfolgern, Befolgung von Anweisungen, Alignment mit menschlichen Präferenzen und Agentenfunktionen
- Erreichte in 19 Standard-Benchmarks ein Leistungsniveau ähnlich zu GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro
Wurde durch zwei zentrale Innovationen gestärkt
- Adaptive Tool-Nutzung (adaptive tool-use): ruft bei Bedarf automatisch Suche und Code Interpreter auf
- Fortgeschrittene Testzeit-Skalierung (test-time scaling): nutzt zusätzliche Rechenleistung während des Schlussfolgerns effizient und erreicht damit eine Leistung, die Gemini 3 Pro übertrifft

Im Bereich Wissen (knowledge) erreicht es mit MMLU-Pro 85.7 und C-Eval 93.7 Werte nahe an führenden Modellen
In STEM liegt es mit GPQA 87.4 und HLE 30.2 unter einigen Modellen, hält aber eine ausgewogene Gesamtleistung
In Reasoning-Benchmarks wurden hohe Werte wie HMMT Nov 25 94.7 und LiveCodeBench v6 85.9 erzielt
Bei Befolgung von Anweisungen und Alignment (instruction following & alignment) erreicht es mit Arena-Hard v2 90.2 Spitzenniveau
Auch bei Tool-Nutzung (tool use) und agentischer Suche (agentic search) wurden teils bessere Ergebnisse als bei Konkurrenzmodellen bestätigt

Auch ohne dass der Nutzer selbst Tools auswählt, nutzt das Modell automatisch Search, Memory und Code Interpreter
- Search und Memory reduzieren Halluzinationen und ermöglichen Zugriff auf Echtzeitinformationen sowie personalisierte Antworten
- Code Interpreter unterstützt die Lösung komplexer Probleme durch Codeausführung und berechnungsbasiertes Schlussfolgern
Diese Funktionen wurden durch einen zusätzlichen Trainingsprozess gestärkt, der regelbasiertes und modellbasiertes Feedback kombiniert
Das Ergebnis ist eine natürliche und leistungsstarke konversationelle Erfahrung

Eine Methode zur Leistungssteigerung durch die Verteilung zusätzlicher Rechenleistung während des Schlussfolgerns, effizienter als einfaches paralleles Sampling
Der vorgeschlagene Ansatz nutzt einen mehrstufigen, erfahrungssammelnden selbstreflexiven Ansatz (self-reflective multi-round)
- Über den „take-experience“-Mechanismus werden zentrale Erkenntnisse aus früheren Runden extrahiert
- Statt bereits gezogene Schlussfolgerungen zu wiederholen, konzentriert er sich auf ungelöste Unsicherheiten
Erzielt bei gleichem Token-Verbrauch eine höhere Kontexteffizienz
- Verbesserungen von GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5 und HLE(w/ tools) 55.8→58.3

Sofort in Qwen Chat verfügbar; der Modellname lautet qwen3-max-2026-01-23
Nutzbar nach Erstellung eines API-Schlüssels über Alibaba Cloud Model Studio
Vollständig kompatibel mit der OpenAI API, inklusive Python-Beispielcode
- Über die Option enable_thinking kann der Reasoning-Modus aktiviert werden
Auch kompatibel mit dem Anthropic-API-Protokoll, sodass es in der Claude Code-Umgebung identisch funktioniert
- Nach dem Setzen von Umgebungsvariablen über den Befehl claude ausführbar