- Qwen3.5-397B-A17B ist ein integriertes Sprach‑ und Visionsmodell und zeigt starke Leistung bei Reasoning, Coding, Agentenaufgaben und multimodalem Verstehen
- Eine hybride Architektur aus GDN-basierter linearer Attention und sparsem MoE aktiviert nur 17 Milliarden von insgesamt 397 Milliarden Parametern und erreicht damit zugleich höhere Inferenz-Effizienz und geringere Kosten
- Die Unterstützung für Sprachen und Dialekte wurde von 119 auf 201 erweitert, was die globale Zugänglichkeit und die mehrsprachige Verarbeitung verbessert
- Qwen3.5-Plus, bereitgestellt über Alibaba Cloud Model Studio, unterstützt standardmäßig ein Kontextfenster mit 1 Million Token sowie adaptive Tool-Nutzung
- Durch den Ausbau der Reinforcement-Learning-Umgebung und ein effizientes Infrastrukturdesign wurden Stabilität und Skalierbarkeit für Training und Inferenz großer multimodaler Agenten gesichert
Überblick über Qwen3.5
- Qwen3.5 ist ein integriertes Vision-Language-Modell und erzielt in verschiedenen Benchmarks hervorragende Ergebnisse bei Reasoning, Coding, Agentenaufgaben und multimodalem Verstehen
- Modellname Qwen3.5-397B-A17B, von insgesamt 397 Milliarden Parametern sind nur 17 Milliarden aktiv
- Kombination aus linearer Attention auf Basis von Gated Delta Networks und sparser Mixture-of-Experts-Architektur zur Optimierung von Geschwindigkeit und Kosten
- Die Sprachunterstützung wurde von 119 auf 201 erweitert, was die mehrsprachige Zugänglichkeit verbessert
- Qwen3.5-Plus wird in Alibaba Cloud Model Studio angeboten und enthält
- ein 1M-Kontextfenster, offizielle integrierte Tools und adaptive Tool-Nutzung
Leistungsbewertung
- Im Vergleich mit aktuellen Modellen wie GPT5.2, Claude 4.5 Opus und Gemini-3 Pro erzielte Qwen3.5
- wettbewerbsfähige Werte in Sprache, Reasoning, Coding, Agentenaufgaben und Multimodalität
- Bei Sprachevaluierungen erreicht es Spitzenwerte wie MMLU-Pro 94.9, SuperGPQA 70.4 und IFBench 76.5
- Bei Vision-Language-Evaluierungen erzielt es hohe Werte wie MathVision 88.6, AI2D_TEST 93.9 und OCRBench 93.1
- Beim multimodalen Verstehen und beim Lösen von STEM-Problemen zeigt es bessere Ergebnisse als Qwen3-VL
- Durch die Erweiterung der Reinforcement-Learning-Umgebung wurde die allgemeine Agentenleistung verbessert; bei BFCL-V4 und VITA-Bench stieg die durchschnittliche Platzierung
Vortraining (Pretraining)
- Power: Gegenüber Qwen3 verstärktes Lernen mit groß angelegten visuellen und textuellen Tokens sowie ausgebauten mehrsprachigen, STEM- und Reasoning-Daten
- Qwen3.5-397B-A17B erreicht eine Leistung auf dem Niveau eines Modells der 1T-Parameter-Klasse (Qwen3-Max-Base)
- Efficiency: Basierend auf der Qwen3-Next-Architektur kommen MoE-Sparsifizierung, Gated DeltaNet und Multi-Token Prediction zum Einsatz
- Bei 32k/256k-Kontexten erreicht es 8,6-fachen bzw. 19-fachen Decoding-Durchsatz gegenüber Qwen3-Max
- Versatility: Frühe Text-Vision-Fusion ermöglicht natürliche multimodale Verarbeitung
- Mit einem Vokabular von 250.000 Einträgen (zuvor 150.000) steigt die Effizienz von Encoding und Decoding um 10–60 %
Infrastruktur und Trainings-Framework
- Eine heterogene Infrastruktur mit getrennter Parallelisierungsstrategie für Vision und Sprache unterstützt effizientes multimodales Training
- Durch Nutzung der sparsamen Aktivierung wird selbst bei gemischten Daten aus Text, Bild und Video eine Verarbeitungseffizienz von nahezu 100 % erreicht
- Eine FP8-Pipeline optimiert die Präzision von Aktivierungen, MoE-Routing und GEMM-Berechnungen
- 50 % weniger Speicherverbrauch, mehr als 10 % höhere Geschwindigkeit
- Ein asynchrones Reinforcement-Learning-Framework unterstützt das Training von Text-, multimodalen und Multi-Turn-Modellen
- Mit FP8-End-to-End-Training, speculative decoding und multi-turn rollout locking
werden 3- bis 5-fach höhere Verarbeitungsgeschwindigkeiten und stabile Skalierbarkeit erreicht
Einsatz und Integration
- In Qwen Chat stehen die Modi Auto, Thinking und Fast zur Verfügung
- Auto: automatische Tool-Nutzung und adaptives Denken
- Thinking: tiefgehendes Reasoning
- Fast: sofortige Antwort
- Über die ModelStudio API lassen sich die Funktionen reasoning, web search und Code Interpreter aktivieren
- Gesteuert über die Parameter
enable_thinking und enable_search
- Integration mit Qwen Code und OpenClaw unterstützt natürlichsprachliches Coding und multimodale Kreativarbeit
Demos und Anwendungen
- Web-Entwicklung: Erzeugung von Webseiten- und UI-Code per natürlichsprachigem Befehl
- Visual Agent: automatische Ausführung natürlichsprachlicher Anweisungen auf Smartphone und PC
- Visual Coding: Mit Eingaben von 1 Million Token ist Videobearbeitung von bis zu 2 Stunden möglich
- unterstützt u. a. die Umwandlung von handgezeichneten UI-Entwürfen in Code und Videozusammenfassungen
- Spatial Intelligence: höhere Genauigkeit beim Zählen von Objekten, bei Positionsbeziehungen und bei räumlichen Beschreibungen
- zeigt Anwendungspotenzial für autonomes Fahren und Robotik
- Visual Reasoning: Verbesserungen gegenüber Qwen3-VL bei wissenschaftlicher Problemlösung und visuellem logischem Schlussfolgern
Zusammenfassung und Ausblick
- Qwen3.5 schafft auf Basis einer effizienten hybriden Architektur und nativen multimodalen Reasonings die Grundlage für den Aufbau allgemeiner digitaler Agenten
- Das künftige Ziel ist der Wechsel von Modellskalierung zu Systemintegration
- Entwicklung autonomer, dauerhaft arbeitender Agentensysteme mit kontinuierlichem Gedächtnis, Realwelt-Schnittstellen, Selbstverbesserung und wirtschaftlicher Entscheidungsfähigkeit
1 Kommentare
Hacker-News-Kommentare
Interessant ist die Meldung, dass bei der heutigen LLM-Herausforderung „drive the car to the wash“ ausgewählt wurde
Da LLMs bereits nahezu den gesamten Korpus konsumiert haben, ist schwer zu unterscheiden, ob eine Verbesserung echtes Lernen ist oder nur ein angeklebter „Post-it-Zettel“
Man braucht eine Methode, Probleme zwar in natürlicher Sprache auszudrücken, sie für LLMs aber wie ein „verschlüsseltes“ Problem erscheinen zu lassen
Zum Beispiel könnte ein einfacher LUA-Programmgenerator zufälligen Code erzeugen, diesen ins Englische übersetzen, das LLM das Ergebnis vorhersagen lassen und es dann mit dem tatsächlichen Ausführungsergebnis vergleichen
Dieser Ansatz fühlt sich fast wie eine Art Informationskriegsszenario an
Für Interessierte wurden MXFP4 GGUFs auf Hugging Face hochgeladen, und eine Laufanleitung steht in der unsloth.ai-Dokumentation
Pelican ist okay, aber kein gutes Fahrrad — siehe dieses Beispiel
Wenn Qwen 3.5 in einer Größe von 80–110B erscheint, würde es wohl genau auf ein 128-GB-Gerät passen. Qwen3-Next ist zwar 80B, hat aber keinen Vision-Encoder
Schade, dass nur das Flaggschiffmodell veröffentlicht wurde und es keine kleinen Distill-Versionen gibt. Frühere Qwen-Versionen waren in vielen Größen verfügbar, was gut war
Letztes Neujahr hätte ich mir nie vorstellen können, dass ein Modell auf Sonnet-4.5-Niveau lokal schnell läuft, aber auf einem MacBook Pro mit M5 Max im Jahr 2026 könnte das vielleicht möglich sein
Qwen ist ein sehr starkes Open-Modell, besonders die Visual-Serie ist beeindruckend
In einem AI-Report wurde erwähnt, dass Fennec (Sonnet 5) am 4. Februar erscheinen soll, tatsächlich war das aber eine Mischung aus Gerücht und Halluzinationen eines AI-News-Tools. Ein interessanter Fall
Es gibt ein Problem, dass der Qwen-Blog nicht lädt. Selbst mit deaktiviertem Werbeblocker sieht man nur Platzhalter
Ich frage mich, was genau die erwähnten 15.000 RL-Umgebungen sind. Ein paar Hundert kann ich mir vorstellen, aber darüber hinaus kaum
Derzeit konzentrieren sich alle nur auf Benchmark-Scores, aber wirklich wichtig ist, ob ein Modell bei mehrstufiger Tool-Nutzung den Kontext halten kann
Die meisten Open-Modelle brechen an dieser Stelle immer noch zusammen