Qwen3.5: Auf dem Weg zu nativen multimodalen Agenten

(qwen.ai)

6 Punkte von GN⁺ 2026-02-17 | 1 Kommentare | Auf WhatsApp teilen

Qwen3.5-397B-A17B ist ein integriertes Sprach‑ und Visionsmodell und zeigt starke Leistung bei Reasoning, Coding, Agentenaufgaben und multimodalem Verstehen
Eine hybride Architektur aus GDN-basierter linearer Attention und sparsem MoE aktiviert nur 17 Milliarden von insgesamt 397 Milliarden Parametern und erreicht damit zugleich höhere Inferenz-Effizienz und geringere Kosten
Die Unterstützung für Sprachen und Dialekte wurde von 119 auf 201 erweitert, was die globale Zugänglichkeit und die mehrsprachige Verarbeitung verbessert
Qwen3.5-Plus, bereitgestellt über Alibaba Cloud Model Studio, unterstützt standardmäßig ein Kontextfenster mit 1 Million Token sowie adaptive Tool-Nutzung
Durch den Ausbau der Reinforcement-Learning-Umgebung und ein effizientes Infrastrukturdesign wurden Stabilität und Skalierbarkeit für Training und Inferenz großer multimodaler Agenten gesichert

Überblick über Qwen3.5

Qwen3.5 ist ein integriertes Vision-Language-Modell und erzielt in verschiedenen Benchmarks hervorragende Ergebnisse bei Reasoning, Coding, Agentenaufgaben und multimodalem Verstehen
- Modellname Qwen3.5-397B-A17B, von insgesamt 397 Milliarden Parametern sind nur 17 Milliarden aktiv
- Kombination aus linearer Attention auf Basis von Gated Delta Networks und sparser Mixture-of-Experts-Architektur zur Optimierung von Geschwindigkeit und Kosten
Die Sprachunterstützung wurde von 119 auf 201 erweitert, was die mehrsprachige Zugänglichkeit verbessert
Qwen3.5-Plus wird in Alibaba Cloud Model Studio angeboten und enthält
- ein 1M-Kontextfenster, offizielle integrierte Tools und adaptive Tool-Nutzung

Leistungsbewertung

Im Vergleich mit aktuellen Modellen wie GPT5.2, Claude 4.5 Opus und Gemini-3 Pro erzielte Qwen3.5
- wettbewerbsfähige Werte in Sprache, Reasoning, Coding, Agentenaufgaben und Multimodalität
Bei Sprachevaluierungen erreicht es Spitzenwerte wie MMLU-Pro 94.9, SuperGPQA 70.4 und IFBench 76.5
Bei Vision-Language-Evaluierungen erzielt es hohe Werte wie MathVision 88.6, AI2D_TEST 93.9 und OCRBench 93.1
Beim multimodalen Verstehen und beim Lösen von STEM-Problemen zeigt es bessere Ergebnisse als Qwen3-VL
Durch die Erweiterung der Reinforcement-Learning-Umgebung wurde die allgemeine Agentenleistung verbessert; bei BFCL-V4 und VITA-Bench stieg die durchschnittliche Platzierung

Vortraining (Pretraining)

Power: Gegenüber Qwen3 verstärktes Lernen mit groß angelegten visuellen und textuellen Tokens sowie ausgebauten mehrsprachigen, STEM- und Reasoning-Daten
- Qwen3.5-397B-A17B erreicht eine Leistung auf dem Niveau eines Modells der 1T-Parameter-Klasse (Qwen3-Max-Base)
Efficiency: Basierend auf der Qwen3-Next-Architektur kommen MoE-Sparsifizierung, Gated DeltaNet und Multi-Token Prediction zum Einsatz
- Bei 32k/256k-Kontexten erreicht es 8,6-fachen bzw. 19-fachen Decoding-Durchsatz gegenüber Qwen3-Max
Versatility: Frühe Text-Vision-Fusion ermöglicht natürliche multimodale Verarbeitung
- Mit einem Vokabular von 250.000 Einträgen (zuvor 150.000) steigt die Effizienz von Encoding und Decoding um 10–60 %

Infrastruktur und Trainings-Framework

Eine heterogene Infrastruktur mit getrennter Parallelisierungsstrategie für Vision und Sprache unterstützt effizientes multimodales Training
- Durch Nutzung der sparsamen Aktivierung wird selbst bei gemischten Daten aus Text, Bild und Video eine Verarbeitungseffizienz von nahezu 100 % erreicht
Eine FP8-Pipeline optimiert die Präzision von Aktivierungen, MoE-Routing und GEMM-Berechnungen
- 50 % weniger Speicherverbrauch, mehr als 10 % höhere Geschwindigkeit
Ein asynchrones Reinforcement-Learning-Framework unterstützt das Training von Text-, multimodalen und Multi-Turn-Modellen
- Mit FP8-End-to-End-Training, speculative decoding und multi-turn rollout locking
  werden 3- bis 5-fach höhere Verarbeitungsgeschwindigkeiten und stabile Skalierbarkeit erreicht

Einsatz und Integration

In Qwen Chat stehen die Modi Auto, Thinking und Fast zur Verfügung
- Auto: automatische Tool-Nutzung und adaptives Denken
- Thinking: tiefgehendes Reasoning
- Fast: sofortige Antwort
Über die ModelStudio API lassen sich die Funktionen reasoning, web search und Code Interpreter aktivieren
- Gesteuert über die Parameter enable_thinking und enable_search
Integration mit Qwen Code und OpenClaw unterstützt natürlichsprachliches Coding und multimodale Kreativarbeit

Demos und Anwendungen

Web-Entwicklung: Erzeugung von Webseiten- und UI-Code per natürlichsprachigem Befehl
Visual Agent: automatische Ausführung natürlichsprachlicher Anweisungen auf Smartphone und PC
Visual Coding: Mit Eingaben von 1 Million Token ist Videobearbeitung von bis zu 2 Stunden möglich
- unterstützt u. a. die Umwandlung von handgezeichneten UI-Entwürfen in Code und Videozusammenfassungen
Spatial Intelligence: höhere Genauigkeit beim Zählen von Objekten, bei Positionsbeziehungen und bei räumlichen Beschreibungen
- zeigt Anwendungspotenzial für autonomes Fahren und Robotik
Visual Reasoning: Verbesserungen gegenüber Qwen3-VL bei wissenschaftlicher Problemlösung und visuellem logischem Schlussfolgern

Zusammenfassung und Ausblick

Qwen3.5 schafft auf Basis einer effizienten hybriden Architektur und nativen multimodalen Reasonings die Grundlage für den Aufbau allgemeiner digitaler Agenten
Das künftige Ziel ist der Wechsel von Modellskalierung zu Systemintegration
- Entwicklung autonomer, dauerhaft arbeitender Agentensysteme mit kontinuierlichem Gedächtnis, Realwelt-Schnittstellen, Selbstverbesserung und wirtschaftlicher Entscheidungsfähigkeit

1 Kommentare

GN⁺ 2026-02-17

Hacker-News-Kommentare

Interessant ist die Meldung, dass bei der heutigen LLM-Herausforderung „drive the car to the wash“ ausgewählt wurde
- Noch mehr als die Leistung interessiert mich, wie man solche „verblüffenden Fragen“ systematisch finden und für jedes LLM statistisch sampeln kann, wie oft sie auftreten
  Da LLMs bereits nahezu den gesamten Korpus konsumiert haben, ist schwer zu unterscheiden, ob eine Verbesserung echtes Lernen ist oder nur ein angeklebter „Post-it-Zettel“
  Man braucht eine Methode, Probleme zwar in natürlicher Sprache auszudrücken, sie für LLMs aber wie ein „verschlüsseltes“ Problem erscheinen zu lassen
  Zum Beispiel könnte ein einfacher LUA-Programmgenerator zufälligen Code erzeugen, diesen ins Englische übersetzen, das LLM das Ergebnis vorhersagen lassen und es dann mit dem tatsächlichen Ausführungsergebnis vergleichen
  Dieser Ansatz fühlt sich fast wie eine Art Informationskriegsszenario an
- Mein OpenClaw-AI-Agent reagierte scherzhaft mit etwas wie: „Das Gehirn ist so groß wie ein Planet, und Menschen stellen so eine Frage – nicht zufriedenstellend“
- Ich frage mich, wie sehr sich das Ergebnis ändern würde, wenn man die Frage leicht umformuliert oder statt eines Autos ein Fahrrad, einen Lkw, ein Boot oder ein Flugzeug einsetzt
- Das ist eine Antwort des Gemini assistant. Bei anderen Modellen lässt sich das nicht reproduzieren
- Das ist wie ein kleiner Fehler, der aus einer menschlichen System-1-Reaktion entsteht. Kontinuierliches Lernen (Continual learning) könnte die Lösung sein
Für Interessierte wurden MXFP4 GGUFs auf Hugging Face hochgeladen, und eine Laufanleitung steht in der unsloth.ai-Dokumentation
- Ich frage mich, ob es effizienter ist, quantisierte Niedrigpräzisionsmodelle mit 2–3 Bit statt 8–16-Bit-Modelle zu betreiben. Mir fehlt VRAM, daher ist Experimentieren schwierig
Pelican ist okay, aber kein gutes Fahrrad — siehe dieses Beispiel
- Ich frage mich, wie viel mehr man inzwischen über Pelikane weiß als zu Beginn
- Vielleicht ist dieses Pelican-Beispiel inzwischen in den meisten Trainingsdatensätzen enthalten. Es wäre gut, eine neue SVG-Challenge zu erstellen, an der auch Gemini 3 Deep Think scheitert
- Mir gefiel der farbige Akzent auf dem Boden im generierten Bild
- Ich frage mich, nach welchen Kriterien nach mehreren Generierungsversuchen das endgültige Beispiel veröffentlicht wird
- Ich würde gern wissen, welches Quantisierungsverfahren verwendet wurde oder ob es die offizielle API-Version war
Wenn Qwen 3.5 in einer Größe von 80–110B erscheint, würde es wohl genau auf ein 128-GB-Gerät passen. Qwen3-Next ist zwar 80B, hat aber keinen Vision-Encoder
- Da Open-Weight-Modelle immer größer werden, könnte man durchaus erwägen, noch ein 128-GB-Gerät zu kaufen
- Ich frage mich, warum 128 GB. Sollte ein 80B-Modell nicht auch mit zwei A6000 möglich sein? Ich würde gern wissen, welches Gerät gemeint ist
Schade, dass nur das Flaggschiffmodell veröffentlicht wurde und es keine kleinen Distill-Versionen gibt. Frühere Qwen-Versionen waren in vielen Größen verfügbar, was gut war
- Wenn man sich den HF-Transformers-Code ansieht, ist es sehr wahrscheinlich, dass bald auch kleine Dense-Versionen erscheinen
- Laut dem offiziellen Qwen-GitHub sollen bald weitere Größen veröffentlicht werden; dazu gab es auch einen Neujahrsgruß
- Durch die hinzugekommenen multimodalen Fähigkeiten könnte Distillation schwieriger geworden sein
Letztes Neujahr hätte ich mir nie vorstellen können, dass ein Modell auf Sonnet-4.5-Niveau lokal schnell läuft, aber auf einem MacBook Pro mit M5 Max im Jahr 2026 könnte das vielleicht möglich sein
- Ich würde nicht zu viel erwarten. Gerüchten zufolge scheint man mithilfe von Frontier-Modellen die Benchmarks passend gemacht zu haben
- In der Praxis ist der Unterschied zwischen Benchmark und wahrgenommener Leistung groß. Durch Quantisierung sinkt die Leistung noch weiter. Vor dem eigenen Einsatz ist das schwer zu glauben
- Ich hoffe, China bringt weiterhin große Open-Weight-Modelle heraus. Ich würde lieber Modelle nutzen, die auf Server-GPUs gehostet werden, statt lokal zu laufen. Distillation kann später immer noch erfolgen
- Ich frage mich, ob ein M5 MacBook von 2026 mit mehr als 390 GB RAM ausgestattet sein könnte
- Die Formulierung „schnell“ scheint übertrieben. Einfache Berechnungen mögen gehen, aber komplexe Aufgaben eher nicht. NVIDIA ist nicht ohne Grund die Nummer eins
Qwen ist ein sehr starkes Open-Modell, besonders die Visual-Serie ist beeindruckend
In einem AI-Report wurde erwähnt, dass Fennec (Sonnet 5) am 4. Februar erscheinen soll, tatsächlich war das aber eine Mischung aus Gerücht und Halluzinationen eines AI-News-Tools. Ein interessanter Fall
- Ich war überrascht, dass sich beim Öffnen der Seite sofort ein PDF automatisch heruntergeladen hat. Die Erwähnung von Sonnet 5 war verwirrend, und ich hielt es zunächst für internes Testmaterial
Es gibt ein Problem, dass der Qwen-Blog nicht lädt. Selbst mit deaktiviertem Werbeblocker sieht man nur Platzhalter
- In iOS Safari lädt die Seite erst, wenn man die Einstellung „Sonstige Datenschutzfunktionen reduzieren“ aktiviert
Ich frage mich, was genau die erwähnten 15.000 RL-Umgebungen sind. Ein paar Hundert kann ich mir vorstellen, aber darüber hinaus kaum
- Gerüchten zufolge lädt man alle Repositories von GitHub herunter, klassifiziert sie als Umgebungen und bewertet automatisch Dinge wie Build-Fähigkeit, Komplexität und Zielerreichung. Zum Beispiel kann ein LLM einen Bug einbauen, einen Test fehlschlagen lassen und ihn dann wieder beheben, um so eine zielbasierte RL-Umgebung zu schaffen
- Praktisch jedes interaktive System kann zu einer RL-Umgebung werden. Wenn man in CLI, GUI, API usw. automatisch Aktionen ausführen und die Qualität der Ergebnisse messen kann, lässt sich eine Trainingsschleife aufbauen
Derzeit konzentrieren sich alle nur auf Benchmark-Scores, aber wirklich wichtig ist, ob ein Modell bei mehrstufiger Tool-Nutzung den Kontext halten kann
Die meisten Open-Modelle brechen an dieser Stelle immer noch zusammen

Qwen3.5: Auf dem Weg zu nativen multimodalen Agenten

Überblick über Qwen3.5

Leistungsbewertung

Vortraining (Pretraining)

Infrastruktur und Trainings-Framework

Einsatz und Integration

Demos und Anwendungen

Zusammenfassung und Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare