- Das neueste Modell des Alibaba-Qwen-Teams versteht und erzeugt Text, Bilder, Audio und Video zugleich; die Thinker-Talker-Architektur wurde mit Hybrid-Attention MoE ausgestattet, um die Verarbeitung aller Modalitäten deutlich zu stärken
- Es gibt Instruct-Versionen in drei Größen: Plus, Flash und Light. Unterstützt werden 256k Long Context als Eingabe, mehr als 10 Stunden Audio und bei 720P mehr als 400 Sekunden Videoverarbeitung
- Qwen3.5-Omni-Plus erreichte SOTA in 215 Benchmarks für Audio- und Videoverständnis und übertrifft Gemini-3.1 Pro in den Bereichen allgemeines Audioverständnis, Schlussfolgern, Übersetzung und Konversation
- Gegenüber der vorherigen Generation wurde die mehrsprachige Unterstützung stark ausgebaut: Spracherkennung für 74 Sprachen und 39 chinesische Dialekte sowie Sprachsynthese für 36 Sprachen; neu hinzugekommen sind interaktive Funktionen wie Voice Clone, Websuche, Echtzeitgespräche und Steuerung von Emotion/Geschwindigkeit/Lautstärke
- Die ARIA(Adaptive Rate Interleave Alignment)-Technologie löst Auslassungen und Fehlinterpretationen, die durch Unterschiede bei der Kodierungseffizienz von Text- und Sprach-Token entstehen, und verbessert Natürlichkeit und Stabilität der Streaming-Sprachsynthese grundlegend
Modellüberblick
- Qwen3.5-Omni ist Qwens neuestes vollständig omnimodales LLM, das Text, Bilder, Audio und Video verarbeitet
- Sowohl Thinker als auch Talker nutzen eine Hybrid-Attention-MoE-Struktur zur Verbesserung der multimodalen Verarbeitungsleistung
- Verfügbar in drei Instruct-Versionen: Plus, Flash und Light; alle unterstützen 256k Long Context als Eingabe
- Audioeingabe: mehr als 10 Stunden
- Videoeingabe bei 720P·1FPS: mehr als 400 Sekunden
- Omnimodales Pre-Training wurde mit großen Mengen an Text-, visuellen Daten und mehr als 100 Millionen Stunden Audio-Visual-Daten durchgeführt
- Derzeit verfügbar über Offline API und Realtime API
Zentrale Leistung (Offline)
- Qwen3.5-Omni-Plus erreicht SOTA in 215 Subtasks/Benchmarks für Audio-Visual-Verständnis, Schlussfolgern und Interaktion
- Einschließlich 3 Audio-Visual-Benchmarks, 5 Audio-Benchmarks, 8 ASR-Benchmarks, 156 sprachspezifische S2TT und 43 sprachspezifische ASR
- In den Bereichen allgemeines Audioverständnis, Schlussfolgern, Erkennung, Übersetzung und Konversation übertrifft es Gemini-3.1 Pro; beim gesamten Audio-Visual-Verständnis erreicht es ebenfalls das Niveau von Gemini-3.1 Pro
- Die Leistung bei Bild und Text entspricht der von Qwen3.5-Modellen derselben Größe
- Funktion für Audio-Visual Captioning: unterstützt detaillierte und strukturierte Captions, automatische Segmentierung und Timestamp-Anmerkungen sowie Beschreibungen von Figuren und Audio-Beziehungen auf Szenarioebene
- Audio-Visual Vibe Coding: neue omnimodale Funktion, die direkt Code aus Audio-Visual-Anweisungen generiert
Zentrale Funktionen (Realtime)
- Semantic Interruption: Odin-basiertes Turn-Taking-Intent-Erkennen verhindert unnötige Unterbrechungen durch Backchanneling und Hintergrundgeräusche; standardmäßig in der API enthalten
- Native Unterstützung für WebSearch und komplexe FunctionCall-Aufrufe: Das Modell entscheidet selbstständig, ob eine Websuche aufgerufen werden soll, um Echtzeitanfragen zu beantworten
- End-to-End-Voice-Control: folgt Anweisungen menschenähnlich und steuert Lautstärke, Sprechgeschwindigkeit und Emotion der Ausgabe frei
- Voice Clone: Nutzer können eine Stimme hochladen und damit die Stimme des AI-Assistenten anpassen; alles über die Realtime API verfügbar
- Durch Ändern des System-Prompts können Gesprächsstil und Identität des Modells angepasst werden
ARIA-Technologie
- Um Auslassungen, Fehlinterpretationen und unklare Aussprache zu lösen, die bei Streaming-Sprachinteraktion durch Unterschiede in der Kodierungseffizienz von Text- und Sprach-Token entstehen, wird die ARIA(Adaptive Rate Interleave Alignment)-Technologie vorgeschlagen
- Durch dynamisches Interleaving von Text- und Spracheinheiten wird die Echtzeitleistung beibehalten und gleichzeitig die Natürlichkeit und Stabilität der Sprachsynthese deutlich verbessert
- Ersetzt den festen 1:1-Ansatz des Text-Sprach-Tokenizer-Verhältnisses der vorherigen Generation Qwen3-Omni
Architekturänderungen (gegenüber Qwen3-Omni)
- Backbone: MoE → Hybrid-MoE
- Sequenzlänge: 32k → 256k (Audio 10 Stunden, Video 400 Sekunden)
- Captioning-Bereich: nur Audio → Audio-Visual
- Semantic Interruption: nicht unterstützt → unterstützt
- WebSearch/Tool: nicht unterstützt → unterstützt
- Voice Control·Clone: nicht unterstützt → unterstützt
- Talker-Struktur: Dual-Track Autoregression → Interleave + ARIA
Ausbau der Mehrsprachigkeit
- Spracherkennung (ASR)
- Bisher: 11 Sprachen + 8 chinesische Dialekte
- Jetzt: 74 Sprachen + 39 chinesische Dialekte
- Sprachsynthese (TTS)
- Bisher: 29 Sprachen + 7 chinesische Dialekte
- Jetzt: Sprachausgabe in 36 Sprachen (im Original keine separate Liste für Dialektsynthese angegeben)
Benchmark-Zahlen (wichtige Auszüge)
- Audio-Visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- Stabilität der Sprachsynthese WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API und Nutzung
- Offline API: unterstützt Video- und Audioanalyse sowie Websuche (Parameter
enable_search); Aufruf über Python OpenAI-kompatibles SDK
- Realtime API: Echtzeitgespräche auf WebSocket-Basis; verwendet das dashscope SDK und unterstützt Streaming für Sprachein- und -ausgabe
- Verfügbare Modell-IDs:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- Getrennte Unterstützung für Endpunkte in Festlandchina (Peking) und international (Singapur)
Stimmenliste
- Benutzerdefinierte chinesische und englische Stimmen: 5 Varianten, darunter Tina, Cindy, Liora Mira, Sunnybobi und Raymond
- Szenariostimmen mit Emotionen und Rollenspiel: 19 Varianten, darunter Ethan, Harvey und Maia (chinesisch und englisch)
- Stimmen für chinesische Dialekte: 8 Varianten, darunter Sichuan-Dialekt, Pekinger Dialekt, Tianjin-Dialekt und Kantonesisch
- Mehrsprachige Stimmen: insgesamt 23 Varianten für 23 Sprachen, darunter Koreanisch (Sohee), Deutsch (Lenn), Japanisch (Ono Anna), Spanisch, Französisch und Russisch
Noch keine Kommentare.