- Das neueste reasoning-zentrierte Modell steigert seine Leistung in mehreren Bereichen wie Faktenwissen, komplexes Schlussfolgern und Alignment mit menschlichen Präferenzen durch groß angelegtes Reinforcement Learning und Parameterskalierung
- In 19 Benchmarks erzielte es Ergebnisse auf einem ähnlichen Niveau wie GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro oder übertraf diese in einigen Bereichen
- Durch die Funktion adaptiver Tool-Nutzung ruft es während Gesprächen automatisch Suche, Memory und Code Interpreter auf und unterstützt so weniger Halluzinationen und Zugriff auf Echtzeitinformationen
- Mit einer Strategie zur Testzeit-Skalierung (test-time scaling) reduziert es wiederholte Berechnungen während des Schlussfolgerns und steigert die Effizienz durch einen selbstreflexionsbasierten Mechanismus zur Erfahrungssammlung
- Sofort über Qwen Chat und API nutzbar; zudem kompatibel mit OpenAI- und Anthropic-APIs, sodass Entwickler es leicht in bestehende Workflows integrieren können
Überblick über Qwen3-Max-Thinking
- Qwen3-Max-Thinking ist das neueste Flaggschiff-Reasoning-Modell der Qwen-Serie und skaliert seine Leistung mithilfe von Reinforcement Learning und umfangreichen Rechenressourcen
- Verbesserungen in mehreren Dimensionen wie Faktenwissen, komplexes Schlussfolgern, Befolgung von Anweisungen, Alignment mit menschlichen Präferenzen und Agentenfunktionen
- Erreichte in 19 Standard-Benchmarks ein Leistungsniveau ähnlich zu GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro
- Wurde durch zwei zentrale Innovationen gestärkt
- Adaptive Tool-Nutzung (adaptive tool-use): ruft bei Bedarf automatisch Suche und Code Interpreter auf
- Fortgeschrittene Testzeit-Skalierung (test-time scaling): nutzt zusätzliche Rechenleistung während des Schlussfolgerns effizient und erreicht damit eine Leistung, die Gemini 3 Pro übertrifft
Zusammenfassung der Benchmark-Leistung
- Im Bereich Wissen (knowledge) erreicht es mit MMLU-Pro 85.7 und C-Eval 93.7 Werte nahe an führenden Modellen
- In STEM liegt es mit GPQA 87.4 und HLE 30.2 unter einigen Modellen, hält aber eine ausgewogene Gesamtleistung
- In Reasoning-Benchmarks wurden hohe Werte wie HMMT Nov 25 94.7 und LiveCodeBench v6 85.9 erzielt
- Bei Befolgung von Anweisungen und Alignment (instruction following & alignment) erreicht es mit Arena-Hard v2 90.2 Spitzenniveau
- Auch bei Tool-Nutzung (tool use) und agentischer Suche (agentic search) wurden teils bessere Ergebnisse als bei Konkurrenzmodellen bestätigt
Funktion zur adaptiven Tool-Nutzung
- Auch ohne dass der Nutzer selbst Tools auswählt, nutzt das Modell automatisch Search, Memory und Code Interpreter
- Search und Memory reduzieren Halluzinationen und ermöglichen Zugriff auf Echtzeitinformationen sowie personalisierte Antworten
- Code Interpreter unterstützt die Lösung komplexer Probleme durch Codeausführung und berechnungsbasiertes Schlussfolgern
- Diese Funktionen wurden durch einen zusätzlichen Trainingsprozess gestärkt, der regelbasiertes und modellbasiertes Feedback kombiniert
- Das Ergebnis ist eine natürliche und leistungsstarke konversationelle Erfahrung
Strategie zur Testzeit-Skalierung
- Eine Methode zur Leistungssteigerung durch die Verteilung zusätzlicher Rechenleistung während des Schlussfolgerns, effizienter als einfaches paralleles Sampling
- Der vorgeschlagene Ansatz nutzt einen mehrstufigen, erfahrungssammelnden selbstreflexiven Ansatz (self-reflective multi-round)
- Über den „take-experience“-Mechanismus werden zentrale Erkenntnisse aus früheren Runden extrahiert
- Statt bereits gezogene Schlussfolgerungen zu wiederholen, konzentriert er sich auf ungelöste Unsicherheiten
- Erzielt bei gleichem Token-Verbrauch eine höhere Kontexteffizienz
- Verbesserungen von GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5 und HLE(w/ tools) 55.8→58.3
Entwicklung und API-Integration
- Sofort in Qwen Chat verfügbar; der Modellname lautet
qwen3-max-2026-01-23
- Nutzbar nach Erstellung eines API-Schlüssels über Alibaba Cloud Model Studio
- Vollständig kompatibel mit der OpenAI API, inklusive Python-Beispielcode
- Über die Option
enable_thinking kann der Reasoning-Modus aktiviert werden
- Auch kompatibel mit dem Anthropic-API-Protokoll, sodass es in der Claude Code-Umgebung identisch funktioniert
- Nach dem Setzen von Umgebungsvariablen über den Befehl
claude ausführbar
Noch keine Kommentare.