Qwen3-Omni-Flash-2025-12-01: Natives multimodales Großmodell der nächsten Generation

(qwen.ai)

1 Punkte von GN⁺ 2025-12-12 | Noch keine Kommentare. | Auf WhatsApp teilen

Qwen3-Omni-Flash-2025-12-01 verarbeitet Text, Bilder, Audio und Video gleichzeitig und erzeugt im Echtzeit-Streaming Text- und Sprachausgaben, wodurch ein multimodales Modell der nächsten Generation ermöglicht wird
Das Verständnis für Audio- und Videoanweisungen sowie die Dialogstabilität wurden deutlich verbessert, sodass eine natürliche und konsistente Sprach-Video-Interaktion realisiert wird
Mit der Funktion zur vollständigen Kontrolle des Systemprompts lassen sich Details wie Persönlichkeitsstil, Sprachstil und Ausgabelänge präzise anpassen
Unterstützt 119 Sprachen für Text, 19 Sprachen für Spracherkennung und 10 Sprachen für Sprachsynthese, wodurch mehrsprachige Konsistenzprobleme behoben werden
In allen Bereichen wie logischem Schlussfolgern, Code-Generierung sowie visueller und auditiver Verarbeitung wurde die Leistung gesteigert, was eine natürliche und präzise KI-Interaktionserfahrung liefert

Überblick zu Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni ist ein natives multimodales Großmodell, das Text, Bilder, Audio und Video verarbeitet und Text und natürliche Sprachausgaben in Echtzeit generiert
Diese Version Qwen3-Omni-Flash-2025-12-01 ist ein komplettes Upgrade von Qwen3-Omni
Durch die umfassende Verbesserung von Modellleistung und Effizienz liefert sie schnellere und genauere multimodale Verarbeitungsfähigkeiten

Stärkung der Audio-Video-Interaktion
- Das Verständnis und die Ausführung von Sprach- und Videoanweisungen wurden deutlich verbessert, wodurch das Problem der Leistungseinbußen in alltäglichen Gesprächssituationen gelöst wurde
- Die Stabilität und Konsistenz mehrrunder Audio-Video-Dialoge wurde verbessert, wodurch eine natürlichere Interaktion möglich ist
Erweiterte Kontrolle des Systemprompts
- Der Systemprompt kann vollständig angepasst werden, sodass die exakte Steuerung des Modellverhaltens möglich ist
- Details wie Persönlichkeitsstil (z. B. süß, cool, animeartig), Tonfall und Ausgabelänge können feinjustiert werden
Verbesserte Zuverlässigkeit der Mehrsprachenunterstützung
- Unterstützt textbasierte Interaktionen in 119 Sprachen, 19 Sprachen für Spracherkennung und 10 Sprachen für Sprachsynthese
- Frühere Sprachinstabilitätsprobleme wurden behoben und eine genaue, konsistente mehrsprachige Leistung sichergestellt
Natürliche Sprachsynthese
- Sprechtempo, Pausen und Intonation werden automatisch anhand des Textkontexts angepasst, um eine menschengleiche Sprachqualität zu erzielen
- Langsame oder mechanisch klingende Sprache wird reduziert und es wird eine ausdrucksstarke, natürliche Sprachausgabe bereitgestellt

Verbesserte Textverständnis- und Generierungsfähigkeiten
- ZebraLogic +5.6, LiveCodeBench-v6 +9.3, MultiPL-E +2.7, Schreibqualitätsindex WritingBench +2.2 wurden verbessert
- Höhere Zuverlässigkeit bei der Ausführung komplexer mehrstufiger Anweisungen
Verbesserte Spracherkennungsgenauigkeit
- In Fleurs-zh wurde die Wortfehlerrate reduziert, und VoiceBench +3.2 verbessert
- Die Spracherkennung in realen Gesprächsumgebungen wurde gestärkt
Verbesserte Qualität der Sprachsynthese
- In chinesischen und mehrsprachigen Umgebungen wird eine natürliche Intonation und ein natürliches Rhythmusmuster umgesetzt
- Eine Sprechqualität nahe der menschlichen Stimme wurde erreicht
Verbesserte visuelle Verständlichkeit
- In visuellen Schlussfolgerungsaufgaben wurden MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 verbessert
- Die Fähigkeit zur Interpretation komplexer visueller Inhalte wie Diagramme und mathematische Formen wurde ausgebaut
Verbesserte Videoverstehensleistung
- Mit MLVU +1.6 wurde das semantische Videoverständnis gestärkt
- Eine verbesserte Audio-Video-Synchronisation stärkt die Echtzeit-Video-Kommunikation

Es ist geplant, Nutzerfeedback und innovative Anwendungsszenarien auf Basis von Qwen3-Omni zu sammeln
Zukünftige Erweiterungen sind vorgesehen, darunter mehrsprecherbasierte Spracherkennung (ASR), Video-OCR, audio-visuelles selbstüberwachtes Lernen sowie Unterstützung für agentenbasierte Workflows und Funktionsaufrufe

Für die Forschung wird die folgende Zitierung empfohlen
- @misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}