- Qwen3-Omni-Flash-2025-12-01 verarbeitet Text, Bilder, Audio und Video gleichzeitig und erzeugt im Echtzeit-Streaming Text- und Sprachausgaben, wodurch ein multimodales Modell der nächsten Generation ermöglicht wird
- Das Verständnis für Audio- und Videoanweisungen sowie die Dialogstabilität wurden deutlich verbessert, sodass eine natürliche und konsistente Sprach-Video-Interaktion realisiert wird
- Mit der Funktion zur vollständigen Kontrolle des Systemprompts lassen sich Details wie Persönlichkeitsstil, Sprachstil und Ausgabelänge präzise anpassen
- Unterstützt 119 Sprachen für Text, 19 Sprachen für Spracherkennung und 10 Sprachen für Sprachsynthese, wodurch mehrsprachige Konsistenzprobleme behoben werden
- In allen Bereichen wie logischem Schlussfolgern, Code-Generierung sowie visueller und auditiver Verarbeitung wurde die Leistung gesteigert, was eine natürliche und präzise KI-Interaktionserfahrung liefert
Überblick zu Qwen3-Omni-Flash-2025-12-01
- Qwen3-Omni ist ein natives multimodales Großmodell, das Text, Bilder, Audio und Video verarbeitet und Text und natürliche Sprachausgaben in Echtzeit generiert
- Diese Version Qwen3-Omni-Flash-2025-12-01 ist ein komplettes Upgrade von Qwen3-Omni
- Durch die umfassende Verbesserung von Modellleistung und Effizienz liefert sie schnellere und genauere multimodale Verarbeitungsfähigkeiten
Hauptverbesserungen
-
Stärkung der Audio-Video-Interaktion
- Das Verständnis und die Ausführung von Sprach- und Videoanweisungen wurden deutlich verbessert, wodurch das Problem der Leistungseinbußen in alltäglichen Gesprächssituationen gelöst wurde
- Die Stabilität und Konsistenz mehrrunder Audio-Video-Dialoge wurde verbessert, wodurch eine natürlichere Interaktion möglich ist
-
Erweiterte Kontrolle des Systemprompts
- Der Systemprompt kann vollständig angepasst werden, sodass die exakte Steuerung des Modellverhaltens möglich ist
- Details wie Persönlichkeitsstil (z. B. süß, cool, animeartig), Tonfall und Ausgabelänge können feinjustiert werden
-
Verbesserte Zuverlässigkeit der Mehrsprachenunterstützung
- Unterstützt textbasierte Interaktionen in 119 Sprachen, 19 Sprachen für Spracherkennung und 10 Sprachen für Sprachsynthese
- Frühere Sprachinstabilitätsprobleme wurden behoben und eine genaue, konsistente mehrsprachige Leistung sichergestellt
-
Natürliche Sprachsynthese
- Sprechtempo, Pausen und Intonation werden automatisch anhand des Textkontexts angepasst, um eine menschengleiche Sprachqualität zu erzielen
- Langsame oder mechanisch klingende Sprache wird reduziert und es wird eine ausdrucksstarke, natürliche Sprachausgabe bereitgestellt
Leistungskennzahlen
-
Verbesserte Textverständnis- und Generierungsfähigkeiten
- ZebraLogic +5.6, LiveCodeBench-v6 +9.3, MultiPL-E +2.7, Schreibqualitätsindex WritingBench +2.2 wurden verbessert
- Höhere Zuverlässigkeit bei der Ausführung komplexer mehrstufiger Anweisungen
-
Verbesserte Spracherkennungsgenauigkeit
- In Fleurs-zh wurde die Wortfehlerrate reduziert, und VoiceBench +3.2 verbessert
- Die Spracherkennung in realen Gesprächsumgebungen wurde gestärkt
-
Verbesserte Qualität der Sprachsynthese
- In chinesischen und mehrsprachigen Umgebungen wird eine natürliche Intonation und ein natürliches Rhythmusmuster umgesetzt
- Eine Sprechqualität nahe der menschlichen Stimme wurde erreicht
-
Verbesserte visuelle Verständlichkeit
- In visuellen Schlussfolgerungsaufgaben wurden MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 verbessert
- Die Fähigkeit zur Interpretation komplexer visueller Inhalte wie Diagramme und mathematische Formen wurde ausgebaut
-
Verbesserte Videoverstehensleistung
- Mit MLVU +1.6 wurde das semantische Videoverständnis gestärkt
- Eine verbesserte Audio-Video-Synchronisation stärkt die Echtzeit-Video-Kommunikation
Zukünftige Pläne
- Es ist geplant, Nutzerfeedback und innovative Anwendungsszenarien auf Basis von Qwen3-Omni zu sammeln
- Zukünftige Erweiterungen sind vorgesehen, darunter mehrsprecherbasierte Spracherkennung (ASR), Video-OCR, audio-visuelles selbstüberwachtes Lernen sowie Unterstützung für agentenbasierte Workflows und Funktionsaufrufe
Zitationshinweise
- Für die Forschung wird die folgende Zitierung empfohlen
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}
1 Kommentare
Hacker-News-Kommentare
Dieses Modell hat eine 30B-Parameter-MoE-Struktur, wobei die aktiven Parameter bei etwa 3B liegen.
Es ist der Nachfolger des früheren 7B-Omni-Modells, daher ist eine ähnliche Leistung wie bei Qwen2.5-Omni-7B zu erwarten.
Da es nicht viele veröffentlichte Omni-Modelle gibt, halte ich das für ein ziemlich bedeutendes Release.
Ich persönlich würde dieses Modell gern als Ersatz für die Ein-/Ausgabe-Schnittstelle (Tastatur·Monitor) verwenden und die Berechnungen im Backend mit anderer Technik abwickeln.
Es gibt außerdem auch eine Reasoning-Version, und die Funktion, während des Voice-Chats „denke nach“-Tokens auszusprechen, klingt ziemlich unterhaltsam.
650M Audio-Encoder, 540M Vision-Encoder, 30B-A3B LLM, 3B-A0.3B Audio-LLM, und ein 80M-Transformer/200M-ConvNet zur Umwandlung von Audio-Tokens in Wellenformen.
Es ist eine nicht öffentlich freigegebene Gewichts-Update-Version von Qwen3-Omni; zuvor war Qwen/Qwen3-Omni-30B-A3B-Instruct veröffentlicht worden.
Derzeit wird es von Open-Source-Inferenz-Frameworks noch nicht vollständig unterstützt und läuft daher nur sehr langsam in transformers.
Ich habe mich gefragt, ob Qwen3-Omni wie GPT-4o Echtzeit-Konversationen unterstützt.
Laut Dokumentation schien das nicht der Fall zu sein, aber tatsächlich wird es wohl unterstützt.
Mich würde interessieren, ob es jemand lokal in einer Nicht-NVIDIA-Umgebung betrieben hat.
Ich prüfe das oft mit Homonym-Tests (record vs record) oder mit Anfragen zur Änderung des Sprechtons.
Selbst Dinge wie Silly Tavern sind fast auf unusable-Niveau.
Aber genau solche lokalen Voice-Modelle werden zum Kern natursprachlicher Workflows werden.
Ich habe mich gefragt, ob man auf einem Macbook Omni-Modelle mit GGUF oder MLX betreiben kann.
Mit LMStudio oder Llama.cpp geht es zwar, aber Mikrofon- oder Webcam-Streaming wird nicht unterstützt.
Qwen liefert normalerweise Python-Beispiele auf Cuda-Basis, und ich suche nach einer Open-Source-Alternative.
Ich nutze Gemini Flash Live 2.5 sehr gern.
Ich hoffe, dass Version 3.0 bald erscheint.
Laut Benchmarks soll es besser sein als Gemini Live, aber das muss man selbst testen.
Persönlich fand ich Qwen-Omni-Modelle in englischzentrierten Umgebungen immer etwas enttäuschend.
32B ist ziemlich klein, daher sollte es auch auf Geräten mit 64GB RAM lauffähig sein.
Wenn es in Ollama auftaucht, werde ich es selbst testen.
In den Paper-Benchmarks steht jedoch, dass Qwen3-Omni-Flash-2025-12-01 besser abschneidet als Qwen3-235B-A22B.
Es verwirrt mich, wie das bei einem 30B-Modell möglich sein soll.
Die FLASH-Version gibt es nicht auf Hugging Face und es ist sehr wahrscheinlich ein reines API-Modell.
Zuerst dachte ich, es sei nur für die API gedacht, aber in der Hugging-Face-Kollektion gibt es das Modell tatsächlich.
Tatsächlich ist es aber die vorherige Version, und auch die HF-Demo ruft die API auf, statt lokal zu rechnen.
Beeindruckend ist, dass Qwen3-Omni 2.5 Flash in allen Benchmarks deutlich übertrifft.
Es scheint an der Zeit zu sein, LLM-Workloads auf lokale GPUs zu verlagern.
Öffentliche Benchmarks sind schwer vertrauenswürdig, und wenn man das Modell allein danach auswählt, kann man enttäuscht werden.
Ich habe mich gefragt, warum der Sprechstil von Sprachmodellen so leblos wirkt.
Vor allem beim Teil über Obstpreise klang es völlig natürlich, aber man konnte sofort erkennen, dass es KI war.
Vermutlich liegt es an der Intonation oder an der gleichmäßigen Sprechgeschwindigkeit.
Übermäßiger Gefühlsausdruck wirkt künstlich.
Schade war nur, dass es Fehler in der deutschen Aussprache gab.
Vermutlich gibt es einen separaten Schritt für die Sprachsynthese, was zu solchen Ergebnissen führt.
Das ließe sich mit Gesangs- oder Intonationstests überprüfen.
Das Sprachmodell von ChatGPT klingt am natürlichsten.
Bei Echtzeit-Sprachausgabe gibt es das Problem, dass sich „denke nach“-Tokens und für den Nutzer bestimmte Äußerungen schwer unterscheiden lassen.
Reasoning-/strukturierte Tokens gehen auf die eine Seite, der für den Nutzer bestimmte Text auf die andere,
und nur Letzterer wird synthetisiert, wodurch das hörbare „Nachdenken“ vermieden wird.
Es wirkt so, als würde Qwen unklar formulieren, ob Open Weights veröffentlicht werden.
Tatsächlich bleibt das meiste nicht öffentlich, und manches sieht zwar öffentlich aus, ist aber nur per API verfügbar.
Dadurch verschwenden Nutzer am Ende Zeit mit der vergeblichen Suche nach dem Modell.