Qwen3.5-Omni: Vollständig omnimodales LLM veröffentlicht, das Text, Bilder, Audio und Video verarbeitet

(qwen.ai)

7 Punkte von GN⁺ 2026-03-31 | Noch keine Kommentare. | Auf WhatsApp teilen

Das neueste Modell des Alibaba-Qwen-Teams versteht und erzeugt Text, Bilder, Audio und Video zugleich; die Thinker-Talker-Architektur wurde mit Hybrid-Attention MoE ausgestattet, um die Verarbeitung aller Modalitäten deutlich zu stärken
Es gibt Instruct-Versionen in drei Größen: Plus, Flash und Light. Unterstützt werden 256k Long Context als Eingabe, mehr als 10 Stunden Audio und bei 720P mehr als 400 Sekunden Videoverarbeitung
Qwen3.5-Omni-Plus erreichte SOTA in 215 Benchmarks für Audio- und Videoverständnis und übertrifft Gemini-3.1 Pro in den Bereichen allgemeines Audioverständnis, Schlussfolgern, Übersetzung und Konversation
Gegenüber der vorherigen Generation wurde die mehrsprachige Unterstützung stark ausgebaut: Spracherkennung für 74 Sprachen und 39 chinesische Dialekte sowie Sprachsynthese für 36 Sprachen; neu hinzugekommen sind interaktive Funktionen wie Voice Clone, Websuche, Echtzeitgespräche und Steuerung von Emotion/Geschwindigkeit/Lautstärke
Die ARIA(Adaptive Rate Interleave Alignment)-Technologie löst Auslassungen und Fehlinterpretationen, die durch Unterschiede bei der Kodierungseffizienz von Text- und Sprach-Token entstehen, und verbessert Natürlichkeit und Stabilität der Streaming-Sprachsynthese grundlegend

Modellüberblick

Qwen3.5-Omni ist Qwens neuestes vollständig omnimodales LLM, das Text, Bilder, Audio und Video verarbeitet
Sowohl Thinker als auch Talker nutzen eine Hybrid-Attention-MoE-Struktur zur Verbesserung der multimodalen Verarbeitungsleistung
Verfügbar in drei Instruct-Versionen: Plus, Flash und Light; alle unterstützen 256k Long Context als Eingabe
- Audioeingabe: mehr als 10 Stunden
- Videoeingabe bei 720P·1FPS: mehr als 400 Sekunden
Omnimodales Pre-Training wurde mit großen Mengen an Text-, visuellen Daten und mehr als 100 Millionen Stunden Audio-Visual-Daten durchgeführt
Derzeit verfügbar über Offline API und Realtime API

Qwen3.5-Omni-Plus erreicht SOTA in 215 Subtasks/Benchmarks für Audio-Visual-Verständnis, Schlussfolgern und Interaktion
- Einschließlich 3 Audio-Visual-Benchmarks, 5 Audio-Benchmarks, 8 ASR-Benchmarks, 156 sprachspezifische S2TT und 43 sprachspezifische ASR
In den Bereichen allgemeines Audioverständnis, Schlussfolgern, Erkennung, Übersetzung und Konversation übertrifft es Gemini-3.1 Pro; beim gesamten Audio-Visual-Verständnis erreicht es ebenfalls das Niveau von Gemini-3.1 Pro
Die Leistung bei Bild und Text entspricht der von Qwen3.5-Modellen derselben Größe
Funktion für Audio-Visual Captioning: unterstützt detaillierte und strukturierte Captions, automatische Segmentierung und Timestamp-Anmerkungen sowie Beschreibungen von Figuren und Audio-Beziehungen auf Szenarioebene
Audio-Visual Vibe Coding: neue omnimodale Funktion, die direkt Code aus Audio-Visual-Anweisungen generiert

Semantic Interruption: Odin-basiertes Turn-Taking-Intent-Erkennen verhindert unnötige Unterbrechungen durch Backchanneling und Hintergrundgeräusche; standardmäßig in der API enthalten
Native Unterstützung für WebSearch und komplexe FunctionCall-Aufrufe: Das Modell entscheidet selbstständig, ob eine Websuche aufgerufen werden soll, um Echtzeitanfragen zu beantworten
End-to-End-Voice-Control: folgt Anweisungen menschenähnlich und steuert Lautstärke, Sprechgeschwindigkeit und Emotion der Ausgabe frei
Voice Clone: Nutzer können eine Stimme hochladen und damit die Stimme des AI-Assistenten anpassen; alles über die Realtime API verfügbar
Durch Ändern des System-Prompts können Gesprächsstil und Identität des Modells angepasst werden

Um Auslassungen, Fehlinterpretationen und unklare Aussprache zu lösen, die bei Streaming-Sprachinteraktion durch Unterschiede in der Kodierungseffizienz von Text- und Sprach-Token entstehen, wird die ARIA(Adaptive Rate Interleave Alignment)-Technologie vorgeschlagen
Durch dynamisches Interleaving von Text- und Spracheinheiten wird die Echtzeitleistung beibehalten und gleichzeitig die Natürlichkeit und Stabilität der Sprachsynthese deutlich verbessert
Ersetzt den festen 1:1-Ansatz des Text-Sprach-Tokenizer-Verhältnisses der vorherigen Generation Qwen3-Omni

Spracherkennung (ASR)
- Bisher: 11 Sprachen + 8 chinesische Dialekte
- Jetzt: 74 Sprachen + 39 chinesische Dialekte
Sprachsynthese (TTS)
- Bisher: 29 Sprachen + 7 chinesische Dialekte
- Jetzt: Sprachausgabe in 36 Sprachen (im Original keine separate Liste für Dialektsynthese angegeben)

Audio-Visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
Stabilität der Sprachsynthese WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: unterstützt Video- und Audioanalyse sowie Websuche (Parameter enable_search); Aufruf über Python OpenAI-kompatibles SDK
Realtime API: Echtzeitgespräche auf WebSocket-Basis; verwendet das dashscope SDK und unterstützt Streaming für Sprachein- und -ausgabe
Verfügbare Modell-IDs: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
Getrennte Unterstützung für Endpunkte in Festlandchina (Peking) und international (Singapur)

Benutzerdefinierte chinesische und englische Stimmen: 5 Varianten, darunter Tina, Cindy, Liora Mira, Sunnybobi und Raymond
Szenariostimmen mit Emotionen und Rollenspiel: 19 Varianten, darunter Ethan, Harvey und Maia (chinesisch und englisch)
Stimmen für chinesische Dialekte: 8 Varianten, darunter Sichuan-Dialekt, Pekinger Dialekt, Tianjin-Dialekt und Kantonesisch
Mehrsprachige Stimmen: insgesamt 23 Varianten für 23 Sprachen, darunter Koreanisch (Sohee), Deutsch (Lenn), Japanisch (Ono Anna), Spanisch, Französisch und Russisch