Qwen3-Omni: Natives Omni-AI-Modell für Text, Bilder und Videos

(github.com/QwenLM)

12 Punkte von GN⁺ 2025-09-23 | 2 Kommentare | Auf WhatsApp teilen

Ein hochmodernes multimodales LLM, das Text, Bilder, Audio und Video in einem einzigen Modell verarbeitet und Echtzeit-Sprachausgabe ermöglicht
Unterstützt 119 Textsprachen, 19 Spracheingabesprachen und 10 Sprachausgabesprachen und ist damit optimal für die Umsetzung globaler Services geeignet
Die Modellarchitektur basiert auf einem MoE-basierten Thinker–Talker-Design, das sowohl Leistung als auch Effizienz verbessert und Streaming-basierte Gespräche sowie nutzerspezifische Verhaltenssteuerung bietet
Das als Open Source veröffentlichte Qwen3-Omni-30B-A3B-Captioner bietet detaillierte Audio-Captioning-Funktionen mit niedriger Halluzinationsrate
Verfügt über vielfältige und flexible Wege für den Einsatz in realen Services, darunter Hugging Face Transformers, vLLM, Docker und APIs, sowie entwicklerfreundliche Funktionen

Überblick über Qwen3-Omni und seine Bedeutung

Qwen3-Omni ist ein durchgängiges mehrsprachiges omnimodales LLM (open-source large language model), das vom Qwen-Team von Alibaba Cloud entwickelt wurde
Das Projekt zeichnet sich dadurch aus, dass es selbst unter Open-Source-Multimodal-KI selten ist, Text, Bilder, Audio und Video integriert zu verstehen und in Echtzeit Reaktionen zu erzeugen
Gegenüber konkurrierenden Open-Source-Lösungen bietet es Stärken wie breite Sprachunterstützung, Echtzeit-Streaming und hochpräzises Audio-Captioning
Neue Services wie natürlichsprachliche Frage-Antwort-Systeme, Audio-/visuelle Situationsanalyse und zeitbasierte multimodale Interfaces lassen sich schnell praktisch umsetzen

Hauptmerkmale

Multimodale Verarbeitung: Verarbeitet Text-, Bild-, Audio- und Videoeingaben gemeinsam und erzeugt Text-/Sprachantworten in Echtzeit
Leistung auf dem neuesten Stand der Technik: In 22 von 36 audio-/videobezogenen Benchmarks SOTA, 32 SOTA im Open-Source-Vergleich; ASR- und Sprachdialogleistung ist vergleichbar mit Gemini 2.5 Pro
Breite Sprachunterstützung: Unterstützt 119 Textsprachen, 19 Spracheingabesprachen und 10 Sprachausgabesprachen
Echtzeit-Streaming: Natürliches Turn-Taking und schnelle unmittelbare Antworten
Nutzerspezifische Steuerung: Feingranulare Verhaltenssteuerung und Anpassungsfähigkeit über System-Prompts
MoE-basierte Architektur: Thinker–Talker-Design, AuT-Pretraining und Multi-Codebook-Struktur für extrem niedrige Latenz und hohe Effizienz
Open Source für Audio-Captioning-Modell: Qwen3-Omni-30B-A3B-Captioner unterstützt detaillierte Audiobeschreibungen und Halluzinationsvermeidung

Beispiel-Szenarien nach unterstütztem Einsatzbereich

Audio: Spracherkennung, Sprachübersetzung, Musik-/Klanganalyse, Audio-Captioning usw.
Visuell: Komplexes Bild-OCR, Objekterkennung, bildbasiertes QA, Lösen von Mathematikaufgaben, Videobeschreibung und Wegfindung, Analyse von Szenenwechseln usw.
Audio + Visuell: Multimodales QA, Dialoge, sprachbasierter Aufruf von Agenten usw.
Downstream-Fine-Tuning: Fine-Tuning des Captioning-Modells mit Qwen3-Omni-30B-A3B-Instruct

Beschreibung der einzelnen Modelle

Qwen3-Omni-30B-A3B-Instruct: Audio-, Video- und Texteingabe + Text-/Sprachausgabe (thinker+taker)
Qwen3-Omni-30B-A3B-Thinking: Audio-, Video- und Texteingabe + Textausgabe (nur thinker, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner: Audioeingabe → Textausgabe, detaillierte Beschreibungen und minimierte Halluzinationen (auf Captioning spezialisiert)

Wichtige Einsatzumgebungen und Vorteile

Integration in Hugging Face Transformers: Einfache Code-Einbettung, flexible Verarbeitung verschiedener Eingabekanäle (B64, URL usw.), Unterstützung für FlashAttention 2
vLLM: Stärken bei niedriger Latenz und hoher Parallelität für großskalige produktive Services, schnelle Batch-Inferenz, einfache Skalierung in Multi-GPU-Umgebungen, Vorteile bei Server-API-Integration
Bereitstellung als Docker-Image: Minimiert Umgebungskonflikte, erleichtert Experimente und Deployment
DashScope API: Offizielle Alibaba-API, unterstützt sowohl Echtzeit- als auch Offline-Nutzung
Web-/On-Premise-Demos: Webbasierte Erprobung auch ohne separate Einrichtung möglich

Praxisbeispiele und Tipps

Kernalgorithmen und Funktionen

Mit der Thinker–Talker-Struktur sind getrennte, fortgeschrittene Inferenz und Sprachsynthese möglich
Unterstützt konsistente APIs und explizite Prompt-Verarbeitung für verschiedene Eingabekombinationen (nur Text / Text + Bild / Audio / Video usw.)
Wenn Sprachausgabe nicht gewünscht ist, gibt es eine Option zur Speichereinsparung (mehr als 10 GB Speicherersparnis)
Unterstützt Optionen für verschiedene Sprachsynthesen (Ethan, Chelsie, Aiden usw.), auswählbar über den Parameter speaker

Erweiterte Batch-/Dialogbeispiele

Effizient für große Datenmengen, Benchmarks und dialogorientierte Services, da mehrere multimodale Nachrichten auf einmal zusammengeführt und verarbeitet werden können
Erzeugt maßgeschneiderte Antworten für jede Nachricht (Kombinationen aus Text, Bild, Audio und Video)

Produktiver Einsatz auf Basis von vLLM

Über Parameter-Settings (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt usw.) sind parallele Inferenz und Speicher-Tuning möglich
vLLM serve unterstützt dialogbasierte Nutzung per API; Audioausgabe des Instruct-Modells soll künftig ebenfalls unterstützt werden

API und Umgebung

Über die DashScope API werden API-Dokumentationen für Cloud-Echtzeit, Offline- und Captioning-Anwendungen (China/global) bereitgestellt
Flexibel für produktive Services und Forschung, da vLLM, Official API und Transformers-Umgebungen gleichermaßen unterstützt werden

Systemspezifikationen/Empfehlungen

Für BF16-Präzision wird je nach Video von 15 bis 120 Sekunden ein minimaler Speicherbedarf von 68–145 GB angegeben
GPU-Umgebung und Unterstützung für FlashAttention 2 erforderlich
Tipp zur Prompt-Nutzung: Explizite Textanweisungen zusammen mit multimodalen Eingaben verwenden

Agenten- und Downstream-Nutzung

Aufbau vielfältiger Agenten möglich, etwa für audiobasierte Function Calls, Echtzeit-Multimodal-Dialoge, Analyse- und Assistenz-Services sowie detailliertes Audio-Captioning
Beispiele für Rollensteuerung sowie die Festlegung von Gesprächsstil und Rahmen über System-Prompts werden bereitgestellt

Fazit

Qwen3-Omni bietet unter den Open-Source-LLMs eine weltweit führende allgemeine Integration von Text + Sprache + Bild + Video und ist ideal für Echtzeit- und großskalige Webservices, Forschung und interne Implementierungen in Organisationen. Die enge Integration mit vLLM, API- und Docker-Umgebungen sowie die hohe Kompatibilität und die Unterstützung durch detaillierte Anwendungsbeispiele bieten sehr große Vorteile für Entwicklungseffizienz und Wettbewerbsvorsprung.

2 Kommentare

yeorinhieut 2025-09-24

Koreanisch – es wird also Koreanisch unterstützt!

GN⁺ 2025-09-23

Hacker-News-Kommentare

Als ich auf Englisch damit gesprochen habe, fühlte es sich sehr langsam an, aber auf Spanisch wirkte es deutlich schneller. Es ist wirklich beeindruckend, dass wir bald solche enormen Funktionen wie Echtzeitübersetzung nutzen können. Wenn US-Labore nicht aktiv in den Open-Weights-Wettbewerb einsteigen, wird am Ende wohl China den AI-Markt dominieren. Datenschutz- oder Dateneigentums-sensible Amerikaner könnten letztlich 1.000- bis 2.000-Dollar-Geräte zu Hause haben, auf denen offene chinesische Modelle laufen. Das fühlt sich nach einem wirklich erstaunlichen Wandel an.
- Während ich in den USA lebe, sehe ich Berichte darüber, dass China Linux stark fördert, offene CPU-Architekturen wie RISC-V und sogar selbst gehostete offene Modelle vorantreibt. Langsam habe ich das Gefühl, dass eher wir die „Bösen“ sind.
- Ich betreibe tatsächlich zwei 3090er zu Hause mit Qwen3 und nutze sie zusammen mit Home Assistant und sogar esp32-Sprachsatellitengeräten. Es funktioniert erstaunlich gut.
- Der durchschnittliche Amerikaner scheint kaum bereit zu sein, 1.000 bis 2.000 Dollar extra für datenschutzwahrende Technik auszugeben. Die meisten liefern ohnehin bereits Audio und Video aus ihrem gesamten Zuhause ohne richterlichen Beschluss über IoT-Kameras wie Ring an den Staat, nur um 20 bis 200 Dollar zu sparen.
Man kann es direkt unter https://chat.qwen.ai/ ausprobieren. Für den Sprachmodus muss man sich mit Google oder GitHub anmelden. Es gibt verschiedene Stimmen, zum Beispiel Dylan (ein Teenager, der in den Gassen Pekings aufgewachsen ist), Peter (ein Sketch-Experte aus Tianjin), Cherry (eine fröhliche und positive junge Frau), Ethan (ein lebhafter und warmherziger Junge), Eric (ein besonderer Mann aus Chengdu in Sichuan) und Jada (eine charismatische ältere Schwester aus Shanghai).
- Besonders lustig ist es, die Stimmen in anderen Sprachen zu testen. Auf Russisch klingt Ryan wie ein Westler, der erst vor einem Monat angefangen hat, Russisch zu lernen, Dylan wirkt natürlicher, und die anderen Stimmen sprechen Russisch mit starkem asiatischem Akzent, was jede auf ihre eigene Weise interessant macht.
- Ich sehe nur Omni Flash und frage mich, ob das so korrekt ist.
Die Model Weights sind 70 GB groß, und die Dateigröße wird auch auf Hugging Face angezeigt (Qwen/Qwen3-Omni-30B-A3B-Instruct). Das ist für lokales Ausführen eine ziemlich zugängliche Größe. Ich frage mich, ob bald ein macOS-Port kommt; derzeit scheint eine NVIDIA-GPU zwingend nötig zu sein.
- Auf BF16-Basis dürfte es nach Quantisierung (Q4) auch problemlos auf eine 24-GB-GPU passen. Ich denke, es ist ähnlich wie andere Modelle aus der 30B-A3B-Familie. Ich hatte befürchtet, es könnte eher 200B+ groß sein, bin also erleichtert.
- Ich hatte keine Zeit, es auszuprobieren, aber ein Versuch, es mit dem gestern veröffentlichten Apple-Mojo-Stuff zu verbinden, könnte interessant sein. Wie ausgereift das wäre, ist noch unklar, aber es klingt nach einer spannenden Herausforderung.
- Ich frage mich, ob es eine Inference Engine gibt, die unter macOS läuft.
- Ich würde gern wissen, ob es auch auf einer 5090 läuft oder ob man mehrere GPUs koppeln kann, beziehungsweise ob NVIDIA das blockiert hat.
Hier ist ein Demo-Video; besonders die Szene, in der Video- und Spracheingaben in eine andere Sprache übersetzt und dann wieder als Sprache ausgegeben werden, war das Beeindruckendste, was ich bisher gesehen habe.
YouTube-Demo-Video
Der eigentliche Hebel in diesem Bereich ist Performance pro Größe. Wenn ein Open-Weights-Wettbewerb entsteht, erzwingt das Innovation bei der Effizienz. Vielleicht entstehen dadurch sogar Vorteile, an die Closed-Weights-Modelle gar nicht denken. Ich frage mich, wann clusterartige kollektive Inference-Mechanismen weit genug sein werden, dass acht 30B-Modelle auf einem einzelnen H100-Server ein einziges 240B-Modell bei der Genauigkeit übertreffen.
Aus Neugier habe ich ein paar kurze Audioclips eingegeben, und es unterscheidet sogar Instrumente wie Klavier und Schlagzeug. Ich habe bisher noch nicht viel multimodale LLM-Forschung gesehen, die sich auf Audioerkennung jenseits von Sprache konzentriert. Es wäre schön, eine tiefergehende Analyse zum aktuellen Stand der Technik (SOTA) zu sehen.
Ich frage mich, was „native video support“ konkret bedeutet. Geht es nur darum, fortlaufende Full-Frame-Bilder zu interpretieren, wodurch schnelle Ereignisse verpasst werden könnten, oder steckt etwas Komplexeres dahinter?
Ich denke, Spracheingabe plus Sprachausgabe ist wirklich eine große Veränderung. Theoretisch kann man per Sprache sprechen und sofort in die eigene Sprache oder die des Gegenübers übersetzen. Im Moment braucht man dazwischen noch verschiedene Technologien wie Wakeword, Speech-to-Text und Text-to-Speech, aber dieses Modell scheint zumindest in der 32B-Klasse etwa drei Versionen zu haben, die sowohl Sprachinput als auch -output unterstützen. Je nach Architektur könnte das künftig direkt zu Hause oder auf Geräten wie einem „AI-Toaster“ laufen.
- Wenn man so ein Modell per Tool Calls an ein Hausautomationssystem anbindet, gibt es enorme Möglichkeiten. Seit ChatGPT diese Funktion bekommen hat, habe ich darauf gewartet, dass andere Dienste das auch unterstützen. Gerade in Situationen wie beim Kochen, wenn man die Hände nicht frei hat („Lies mir den nächsten Schritt vor, ich habe Fleisch an den Händen“, „Wie viel Mehl brauche ich für eine Mehlschwitze?“, „Ich habe keine Zitrone, was kann ich stattdessen nehmen?“), wäre das eine revolutionäre Anwendung.
- Vor allem für das Sprachenlernen dürfte das enorm hilfreich sein. Es sieht auch so aus, als könne man es lokal betreiben. Besonders gespannt wäre ich, wenn die unsloth-Entwickler sich damit beschäftigen.
Die Thinker/Speaker-Architektur von Qwen ist wirklich interessant. Sie ähnelt meiner Vorstellung davon, wie menschliche multimodale Kognition funktioniert: Ein Bild von einem Apfel, die Schreibweise „apple“ und der Klang werden alle auf dasselbe Konzept abgebildet, ohne dass zwischendurch zwingend Text durchlaufen werden muss.
- Ich frage mich, ob nicht alle LLMs so funktionieren.
Ich frage mich, ob es gute Materialien gibt, um multimodale Modelle zu lernen. Ich weiß nicht so recht, wo man am besten anfängt.