7 Punkte von GN⁺ 2026-03-31 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das neueste Modell des Alibaba-Qwen-Teams versteht und erzeugt Text, Bilder, Audio und Video zugleich; die Thinker-Talker-Architektur wurde mit Hybrid-Attention MoE ausgestattet, um die Verarbeitung aller Modalitäten deutlich zu stärken
  • Es gibt Instruct-Versionen in drei Größen: Plus, Flash und Light. Unterstützt werden 256k Long Context als Eingabe, mehr als 10 Stunden Audio und bei 720P mehr als 400 Sekunden Videoverarbeitung
  • Qwen3.5-Omni-Plus erreichte SOTA in 215 Benchmarks für Audio- und Videoverständnis und übertrifft Gemini-3.1 Pro in den Bereichen allgemeines Audioverständnis, Schlussfolgern, Übersetzung und Konversation
  • Gegenüber der vorherigen Generation wurde die mehrsprachige Unterstützung stark ausgebaut: Spracherkennung für 74 Sprachen und 39 chinesische Dialekte sowie Sprachsynthese für 36 Sprachen; neu hinzugekommen sind interaktive Funktionen wie Voice Clone, Websuche, Echtzeitgespräche und Steuerung von Emotion/Geschwindigkeit/Lautstärke
  • Die ARIA(Adaptive Rate Interleave Alignment)-Technologie löst Auslassungen und Fehlinterpretationen, die durch Unterschiede bei der Kodierungseffizienz von Text- und Sprach-Token entstehen, und verbessert Natürlichkeit und Stabilität der Streaming-Sprachsynthese grundlegend

Modellüberblick

  • Qwen3.5-Omni ist Qwens neuestes vollständig omnimodales LLM, das Text, Bilder, Audio und Video verarbeitet
  • Sowohl Thinker als auch Talker nutzen eine Hybrid-Attention-MoE-Struktur zur Verbesserung der multimodalen Verarbeitungsleistung
  • Verfügbar in drei Instruct-Versionen: Plus, Flash und Light; alle unterstützen 256k Long Context als Eingabe
    • Audioeingabe: mehr als 10 Stunden
    • Videoeingabe bei 720P·1FPS: mehr als 400 Sekunden
  • Omnimodales Pre-Training wurde mit großen Mengen an Text-, visuellen Daten und mehr als 100 Millionen Stunden Audio-Visual-Daten durchgeführt
  • Derzeit verfügbar über Offline API und Realtime API

Zentrale Leistung (Offline)

  • Qwen3.5-Omni-Plus erreicht SOTA in 215 Subtasks/Benchmarks für Audio-Visual-Verständnis, Schlussfolgern und Interaktion
    • Einschließlich 3 Audio-Visual-Benchmarks, 5 Audio-Benchmarks, 8 ASR-Benchmarks, 156 sprachspezifische S2TT und 43 sprachspezifische ASR
  • In den Bereichen allgemeines Audioverständnis, Schlussfolgern, Erkennung, Übersetzung und Konversation übertrifft es Gemini-3.1 Pro; beim gesamten Audio-Visual-Verständnis erreicht es ebenfalls das Niveau von Gemini-3.1 Pro
  • Die Leistung bei Bild und Text entspricht der von Qwen3.5-Modellen derselben Größe
  • Funktion für Audio-Visual Captioning: unterstützt detaillierte und strukturierte Captions, automatische Segmentierung und Timestamp-Anmerkungen sowie Beschreibungen von Figuren und Audio-Beziehungen auf Szenarioebene
  • Audio-Visual Vibe Coding: neue omnimodale Funktion, die direkt Code aus Audio-Visual-Anweisungen generiert

Zentrale Funktionen (Realtime)

  • Semantic Interruption: Odin-basiertes Turn-Taking-Intent-Erkennen verhindert unnötige Unterbrechungen durch Backchanneling und Hintergrundgeräusche; standardmäßig in der API enthalten
  • Native Unterstützung für WebSearch und komplexe FunctionCall-Aufrufe: Das Modell entscheidet selbstständig, ob eine Websuche aufgerufen werden soll, um Echtzeitanfragen zu beantworten
  • End-to-End-Voice-Control: folgt Anweisungen menschenähnlich und steuert Lautstärke, Sprechgeschwindigkeit und Emotion der Ausgabe frei
  • Voice Clone: Nutzer können eine Stimme hochladen und damit die Stimme des AI-Assistenten anpassen; alles über die Realtime API verfügbar
  • Durch Ändern des System-Prompts können Gesprächsstil und Identität des Modells angepasst werden

ARIA-Technologie

  • Um Auslassungen, Fehlinterpretationen und unklare Aussprache zu lösen, die bei Streaming-Sprachinteraktion durch Unterschiede in der Kodierungseffizienz von Text- und Sprach-Token entstehen, wird die ARIA(Adaptive Rate Interleave Alignment)-Technologie vorgeschlagen
  • Durch dynamisches Interleaving von Text- und Spracheinheiten wird die Echtzeitleistung beibehalten und gleichzeitig die Natürlichkeit und Stabilität der Sprachsynthese deutlich verbessert
  • Ersetzt den festen 1:1-Ansatz des Text-Sprach-Tokenizer-Verhältnisses der vorherigen Generation Qwen3-Omni

Architekturänderungen (gegenüber Qwen3-Omni)

  • Backbone: MoE → Hybrid-MoE
  • Sequenzlänge: 32k → 256k (Audio 10 Stunden, Video 400 Sekunden)
  • Captioning-Bereich: nur Audio → Audio-Visual
  • Semantic Interruption: nicht unterstützt → unterstützt
  • WebSearch/Tool: nicht unterstützt → unterstützt
  • Voice Control·Clone: nicht unterstützt → unterstützt
  • Talker-Struktur: Dual-Track Autoregression → Interleave + ARIA

Ausbau der Mehrsprachigkeit

  • Spracherkennung (ASR)
    • Bisher: 11 Sprachen + 8 chinesische Dialekte
    • Jetzt: 74 Sprachen + 39 chinesische Dialekte
  • Sprachsynthese (TTS)
    • Bisher: 29 Sprachen + 7 chinesische Dialekte
    • Jetzt: Sprachausgabe in 36 Sprachen (im Original keine separate Liste für Dialektsynthese angegeben)

Benchmark-Zahlen (wichtige Auszüge)

  • Audio-Visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • DailyOmni: 84.6 vs 82.7
    • AVUT: 85.0 vs 85.6
    • VideoMME (with audio): 83.7 vs 89.0
    • OmniGAIA: 57.2 vs 68.9
  • Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • MMAU: 82.2 vs 81.1
    • VoiceBench: 93.1 vs 88.9
    • Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
  • Stabilität der Sprachsynthese WER↓ (Custom Voice, Seed-hard)
    • Qwen3.5-Omni-Plus: 6.24
    • ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API und Nutzung

  • Offline API: unterstützt Video- und Audioanalyse sowie Websuche (Parameter enable_search); Aufruf über Python OpenAI-kompatibles SDK
  • Realtime API: Echtzeitgespräche auf WebSocket-Basis; verwendet das dashscope SDK und unterstützt Streaming für Sprachein- und -ausgabe
  • Verfügbare Modell-IDs: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • Getrennte Unterstützung für Endpunkte in Festlandchina (Peking) und international (Singapur)

Stimmenliste

  • Benutzerdefinierte chinesische und englische Stimmen: 5 Varianten, darunter Tina, Cindy, Liora Mira, Sunnybobi und Raymond
  • Szenariostimmen mit Emotionen und Rollenspiel: 19 Varianten, darunter Ethan, Harvey und Maia (chinesisch und englisch)
  • Stimmen für chinesische Dialekte: 8 Varianten, darunter Sichuan-Dialekt, Pekinger Dialekt, Tianjin-Dialekt und Kantonesisch
  • Mehrsprachige Stimmen: insgesamt 23 Varianten für 23 Sprachen, darunter Koreanisch (Sohee), Deutsch (Lenn), Japanisch (Ono Anna), Spanisch, Französisch und Russisch

Noch keine Kommentare.

Noch keine Kommentare.