Qwen3-Max-Thinking-Modell vorgestellt
(qwen.ai)- Das neueste reasoning-zentrierte Modell steigert seine Leistung in mehreren Bereichen wie Faktenwissen, komplexes Schlussfolgern und Alignment mit menschlichen Präferenzen durch groß angelegtes Reinforcement Learning und Parameterskalierung
- In 19 Benchmarks erzielte es Ergebnisse auf einem ähnlichen Niveau wie GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro oder übertraf diese in einigen Bereichen
- Durch die Funktion adaptiver Tool-Nutzung ruft es während Gesprächen automatisch Suche, Memory und Code Interpreter auf und unterstützt so weniger Halluzinationen und Zugriff auf Echtzeitinformationen
- Mit einer Strategie zur Testzeit-Skalierung (test-time scaling) reduziert es wiederholte Berechnungen während des Schlussfolgerns und steigert die Effizienz durch einen selbstreflexionsbasierten Mechanismus zur Erfahrungssammlung
- Sofort über Qwen Chat und API nutzbar; zudem kompatibel mit OpenAI- und Anthropic-APIs, sodass Entwickler es leicht in bestehende Workflows integrieren können
Überblick über Qwen3-Max-Thinking
- Qwen3-Max-Thinking ist das neueste Flaggschiff-Reasoning-Modell der Qwen-Serie und skaliert seine Leistung mithilfe von Reinforcement Learning und umfangreichen Rechenressourcen
- Verbesserungen in mehreren Dimensionen wie Faktenwissen, komplexes Schlussfolgern, Befolgung von Anweisungen, Alignment mit menschlichen Präferenzen und Agentenfunktionen
- Erreichte in 19 Standard-Benchmarks ein Leistungsniveau ähnlich zu GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro
- Wurde durch zwei zentrale Innovationen gestärkt
- Adaptive Tool-Nutzung (adaptive tool-use): ruft bei Bedarf automatisch Suche und Code Interpreter auf
- Fortgeschrittene Testzeit-Skalierung (test-time scaling): nutzt zusätzliche Rechenleistung während des Schlussfolgerns effizient und erreicht damit eine Leistung, die Gemini 3 Pro übertrifft
Zusammenfassung der Benchmark-Leistung
- Im Bereich Wissen (knowledge) erreicht es mit MMLU-Pro 85.7 und C-Eval 93.7 Werte nahe an führenden Modellen
- In STEM liegt es mit GPQA 87.4 und HLE 30.2 unter einigen Modellen, hält aber eine ausgewogene Gesamtleistung
- In Reasoning-Benchmarks wurden hohe Werte wie HMMT Nov 25 94.7 und LiveCodeBench v6 85.9 erzielt
- Bei Befolgung von Anweisungen und Alignment (instruction following & alignment) erreicht es mit Arena-Hard v2 90.2 Spitzenniveau
- Auch bei Tool-Nutzung (tool use) und agentischer Suche (agentic search) wurden teils bessere Ergebnisse als bei Konkurrenzmodellen bestätigt
Funktion zur adaptiven Tool-Nutzung
- Auch ohne dass der Nutzer selbst Tools auswählt, nutzt das Modell automatisch Search, Memory und Code Interpreter
- Search und Memory reduzieren Halluzinationen und ermöglichen Zugriff auf Echtzeitinformationen sowie personalisierte Antworten
- Code Interpreter unterstützt die Lösung komplexer Probleme durch Codeausführung und berechnungsbasiertes Schlussfolgern
- Diese Funktionen wurden durch einen zusätzlichen Trainingsprozess gestärkt, der regelbasiertes und modellbasiertes Feedback kombiniert
- Das Ergebnis ist eine natürliche und leistungsstarke konversationelle Erfahrung
Strategie zur Testzeit-Skalierung
- Eine Methode zur Leistungssteigerung durch die Verteilung zusätzlicher Rechenleistung während des Schlussfolgerns, effizienter als einfaches paralleles Sampling
- Der vorgeschlagene Ansatz nutzt einen mehrstufigen, erfahrungssammelnden selbstreflexiven Ansatz (self-reflective multi-round)
- Über den „take-experience“-Mechanismus werden zentrale Erkenntnisse aus früheren Runden extrahiert
- Statt bereits gezogene Schlussfolgerungen zu wiederholen, konzentriert er sich auf ungelöste Unsicherheiten
- Erzielt bei gleichem Token-Verbrauch eine höhere Kontexteffizienz
- Verbesserungen von GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5 und HLE(w/ tools) 55.8→58.3
Entwicklung und API-Integration
- Sofort in Qwen Chat verfügbar; der Modellname lautet
qwen3-max-2026-01-23 - Nutzbar nach Erstellung eines API-Schlüssels über Alibaba Cloud Model Studio
- Vollständig kompatibel mit der OpenAI API, inklusive Python-Beispielcode
- Über die Option
enable_thinkingkann der Reasoning-Modus aktiviert werden
- Über die Option
- Auch kompatibel mit dem Anthropic-API-Protokoll, sodass es in der Claude Code-Umgebung identisch funktioniert
- Nach dem Setzen von Umgebungsvariablen über den Befehl
claudeausführbar
- Nach dem Setzen von Umgebungsvariablen über den Befehl
1 Kommentare
Hacker-News-Kommentare
Es gab eine Frage zu einem berühmten Foto, aber das System erkannte es als „unangemessenen Inhalt“ und gab einen Fehler zurück. Der Nutzer fragte sich, warum ein solches Bild international so bedeutsam ist
Es kam die Frage auf, wie hoch bei aktuellen Modellen der Token-Verbrauch ist. „Besseres Reasoning“ oder „mehr Tool-Nutzung“ scheint weniger eine Verbesserung des Modells selbst zu sein als vielmehr eine Methode, das Modell mit mehr Tokens besser zu steuern. Also nicht „mit weniger mehr erreichen“, sondern „mit mehr mehr erreichen“
Es wurde gefragt, warum das Modell bei deaktivierter Suche schlechter als Opus 4.5 sei, mit aktivierter Suche aber besser. Vielleicht, so die Vermutung, sei die Qualität der Inhalte im chinesischen Internet höher
Es wurde nach der Preisgestaltung der Qwen-Modelle gefragt. Ob Qwen Max zum gleichen Tarif wie andere Modelle berechnet werde und warum die Preise innerhalb Chinas deutlich niedriger seien
Alibaba-Cloud-Modellseite
Verwandter Artikel
Auf HN galt Opus 4.5 praktisch als Standardmodell, und chinesische Modelle wurden als über acht Monate zurückliegend betrachtet. Es wurde gefragt, ob dieses Modell die Lücke schließen könne
Gemini 3 Pro/Flash liegt dagegen weiterhin eine Stufe darunter, ist verglichen mit dem Vorjahr aber sehr schnell und günstig geworden. Letztlich sind Benchmarks nur ein Anhaltspunkt, während die wahrgenommene Qualität subjektiv bleibt
Im vergangenen Herbst wurde Qwen3-coder über den CLI-Agenten trae in einem Rust-Projekt eingesetzt, und seine Fähigkeiten bei Codegenerierung und Refactoring seien besser gewesen als bei Gemini 2.5 Pro oder Claude Opus 3.5.
Selbst das Hinzufügen von Linux-Shared-Memory-IPC-Aufrufen oder x86_64-SIMD-Optimierungen habe gut funktioniert. Durch Token-Cache und große Kontextfenster seien allerdings monatlich Kosten von mehreren hundert Dollar entstanden
Da kein Hugging-Face-Link zu sehen war, kam die Frage auf, ob Qwen keine offenen Modelle mehr veröffentliche
Es fragte auch jemand, ob das Modell bei Open Router verfügbar sei, verbunden mit der Erwartung eines Vergleichs mit Gemini 3 Flash
Mafia Arena
lmarena.ai, safe.ai-Dashboard,
Clock Draw Test, EQBench, OCR Arena
LLM-Benchmarks seien ein bisschen wie Bewerbungsgespräche für Entwickler. Komplexe Probleme zu verteilten Algorithmen lösen sie gut, aber in realer Arbeit vergessen sie beim Hinzufügen eines einzigen Buttons dann die Wiederverwendung von Tailwind-Klassen
Es gab eine Frage nach der Modellgröße
Offizieller Blog