- Als Nachfolger von Qwen3.6-Plus verbessert es gegenüber dem Vorgänger deutlich das agentische Coding sowie Weltwissen und Befolgung von Anweisungen
- Erreicht in 6 wichtigen Coding-Benchmarks die Bestwerte und bestätigt damit eine starke Verbesserung der Leistung als Coding-Agent
- Unterstützt die Funktion preserve_thinking, die bei agentischen Aufgaben den Denkprozess aus vorherigen Turns in den Nachrichten bewahrt
- Bei Benchmarks zum Weltwissen wurden unter anderem SuperGPQA um +2,3 und QwenChineseBench um +5,3 verbessert, bei der Befolgung von Anweisungen wurde bei ToolcallFormatIFBench +2,8 erreicht
- Interaktive Tests sind in Qwen Studio möglich; über die API von Alibaba Cloud Model Studio soll es als
qwen3.6-max-previewaufrufbar sein
Wichtige Verbesserungen
- Gegenüber Qwen3.6-Plus wurden die Fähigkeiten im agentischen Coding stark verbessert: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- Weltwissen (world knowledge) gestärkt: SuperGPQA +2.3, QwenChineseBench +5.3
- Befolgung von Anweisungen (instruction following) verbessert: ToolcallFormatIFBench +2.8
- Bestwerte in 6 wichtigen Coding-Benchmarks erreicht: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
Modellmerkmale und Ansatz
- Ein exklusiv gehostetes Modell, das über Alibaba Cloud Model Studio bereitgestellt wird
- Verbesserte Leistung bei realen Agenten (real-world agent) und Wissenszuverlässigkeit (knowledge reliability)
- Kann in Qwen Studio sofort interaktiv getestet werden
- Der API-Modellname ist
qwen3.6-max-previewund wird bald in der Alibaba Cloud Model Studio API verfügbar sein
API-Nutzung und Funktionen
- Unterstützt branchenübliche Standardprotokolle wie OpenAI-kompatible chat completions und responses API sowie Anthropic-kompatible Schnittstellen
- Mit der Funktion
preserve_thinkingkann der Reasoning-Prozess (reasoning content) aus vorherigen Turns erhalten bleiben; für agentische Aufgaben empfohlen - Bei Einstellung von
enable_thinking: Truekönnen Reasoning-Inhalte und Antwort getrennt per Streaming empfangen werden - Base-URLs der API nach Regionen verfügbar: Peking, Singapur, USA (Virginia)
Entwicklungsstatus
- Derzeit in der Phase eines Preview Release, wird laufend iterativ verbessert; weitere Verbesserungen sind in späteren Versionen geplant
1 Kommentare
Hacker-News-Kommentare
Ich finde es etwas lustig, wie sehr sich Leute nur auf SOTA-Vergleiche versteifen. Ich habe Fälle gesehen, in denen glm 5.1 Dinge geschafft hat, die Opus nicht konnte, und ich habe auch erlebt, dass es besseren Code geschrieben hat. qwen max habe ich noch nicht ausprobiert, aber ich habe auch gesehen, wie ein lokales 122b-Modell Dokumente besser gelesen und präziser verarbeitet hat. Benchmarks sind am Ende nur ein Teil des Bildes, und in der Praxis hat jedes Modell andere Stärken. Man sollte also nicht so darüber reden, als würde man Hammer und Schraubenschlüssel einfach nur nach Über- oder Unterlegenheit vergleichen
Ich nutze im Unternehmen seit einigen Monaten regelmäßig Claude Code und habe es vor Kurzem auch gut für ein kleines privates Website-Projekt eingesetzt. Letztes Wochenende habe ich zum ersten Mal auch Self-Hosting ausprobiert. Mich würde interessieren, ob jemand nach ausreichend Erfahrung mit CC oder Codex eine halbwegs zufriedenstellende Self-Hosting-Konfiguration gefunden hat. Ich habe mit 32GB DDR5, AMD 7800X3D, RTX 4090 sowie Windows- und WSL-Umgebung verschiedene Kombinationen aus ollama, docker desktop model runner, pi-coding-agent, opencode und Gemma 4, Qwen, GLM-5.1 getestet. Da der Grundverbrauch an RAM schon hoch war, konnte ich gute Modelle wie Gemma4-31B nicht ausführen. Unter reinem Windows gab es oft Probleme mit der Dateipfadbehandlung, und die Variante, pi oder opencode unter WSL laufen zu lassen und das Modell über docker desktop zu betreiben, hat einigermaßen funktioniert. Die gefühlte Leistung war im Vergleich zu CC aber viel zu langsam, und auch die Tool-Reife wirkte bei der CC-Harness-Seite deutlich besser. Ich habe so viel Zeit in das Setup gesteckt, dass ich es am Ende nicht lange praktisch nutzen konnte, aber es war trotzdem ein interessantes Experiment
Ich mache mir Sorgen, dass sich dieses Feld in die Richtung bewegt, erst kostenlose Angebote herauszugeben, um sich einen Namen zu machen, und später alles proprietary zu machen. Trotzdem hoffe ich, dass es weiterhin Open Weights gibt. Der Tag, an dem niemand mehr Open Weights veröffentlicht, wäre wirklich bitter. In so einer Welt würde es für normale Menschen wahrscheinlich noch schwieriger werden, ihre eigene compute direkt zu besitzen
Heute ist auch Kimi K2.6 erschienen, daher finde ich einen Vergleich der beiden ziemlich naheliegend. Schon beim Preis wirkt Qwen teurer: 1,3 Dollar für Input und 7,8 Dollar für Output, während Kimi bei 0,95 Dollar für Input und 4 Dollar für Output liegt. Im Ankündigungsbeitrag überschneiden sich außerdem nur zwei Benchmarks, und sowohl bei SWE-Bench Pro als auch bei Terminal-Bench 2.0 lag Kimi leicht vor Qwen. Natürlich hat jedes Modell andere Stärken und Benchmarks sind nicht alles, aber rein nach den Zahlen wirkt Kimi attraktiver
Die Ironie dieser Ankündigung steckt für mich schon im Namen selbst. Max-Preview ist proprietary und nur in der Cloud verfügbar. Für mich ist das wirklich wichtige Qwen die Serie mit Open Weights, die Leute auf ihrer eigenen Hardware ausführen. Ich betreibe 32B und 72B lokal auf zwei A4000. Es gibt zwar noch eine Lücke zu gehostetem Max, aber man sieht, wie sie mit jeder Veröffentlichung kleiner wird. Deshalb ist die wirklich spannende Frage nicht, wie Max im Vergleich zu Opus abschneidet, sondern ab wann das Open-Weight-Tier für die meisten Workloads das Cloud-Tier praktisch bedeutungslos macht
Während alle nur SOTA hinterherjagen, erledige ich meine gesamte Coding-Arbeit mit MiniMax M2.5 für 10 Dollar im Monat, indem ich mehrere parallele Sessions laufen lasse, und stoße dabei fast nie an Limits
Ich habe mir auch Qwens Dokumentation zum Context Caching angesehen und Opus, Codex und Qwen gemeinsam getestet. Dabei hatte ich schon den Eindruck, dass Qwen bei vielen Coding-Aufgaben stark ist. Worauf ich am meisten achte, ist aber das Verhalten in langen Sessions. Qwen wirbt zwar mit großen Kontextfenstern, aber die tatsächliche Effizienz bei langem Kontext scheint stark von der Art des Context Caching abzuhängen. Laut offizieller Dokumentation werden sowohl implizites als auch explizites Caching unterstützt, aber die TTL liegt nur bei wenigen Minuten, und es gibt Einschränkungen wie prefix-basiertes Matching und Mindestanzahl an Tokens. Wegen dieser Einschränkungen könnte die Cache-Wiederverwendung in Workflows, bei denen der Kontext ständig wächst, etwa bei Coding-Agenten, deutlich schlechter funktionieren als erwartet. Deshalb mögen die Kosten pro Token niedrig aussehen, aber in langen Sessions kann die cache hit rate sinken und die Neuberechnung zunehmen, wodurch sich die tatsächlichen Kosten höher anfühlen. Trotzdem war Qwen bei sicherheitsbezogenen Aufgaben meiner persönlichen Erfahrung nach teilweise besser als Opus. Für kürzere Aufgaben auf Ebene einzelner Methoden oder Funktionen ist Qwen nach meiner Erfahrung viel besser als Opus, aber insgesamt wirkt es für mich eher wie ein Generator auf Funktionsebene als wie ein autonomer End-to-End-Coding-Assistent à la Claude
Wenn ich sehe, dass Qwen sich mit Opus 4.5 vergleicht, fällt es mir schwer, das ganz wohlwollend zu sehen. Ich verstehe zwar, dass Opus 4.7 als ganz neues Modell fehlt, aber Opus 4.6 gibt es nun schon seit einiger Zeit
Bei chinesischen Anbietern in letzter Zeit erkenne ich ein Muster. Erstens scheinen sie dazu überzugehen, Modelle closed source zu halten, und zweitens erhöhen sie die Preise ziemlich deutlich. Manchmal sind das fast 100 Prozent
Interessant ist, dass man die gesamte lokal ausführbare Qwen-Modellfamilie kennen kann und über die Cloud-Modelle trotzdem praktisch nichts weiß. Ich kannte nur die 3.5-Reihen und vielleicht ein 3.6-Modell, und den Namen Plus habe ich jetzt zum ersten Mal gehört