Qwen3-Omni: Natives Omni-AI-Modell für Text, Bilder und Videos
(github.com/QwenLM)- Ein hochmodernes multimodales LLM, das Text, Bilder, Audio und Video in einem einzigen Modell verarbeitet und Echtzeit-Sprachausgabe ermöglicht
- Unterstützt 119 Textsprachen, 19 Spracheingabesprachen und 10 Sprachausgabesprachen und ist damit optimal für die Umsetzung globaler Services geeignet
- Die Modellarchitektur basiert auf einem MoE-basierten Thinker–Talker-Design, das sowohl Leistung als auch Effizienz verbessert und Streaming-basierte Gespräche sowie nutzerspezifische Verhaltenssteuerung bietet
- Das als Open Source veröffentlichte Qwen3-Omni-30B-A3B-Captioner bietet detaillierte Audio-Captioning-Funktionen mit niedriger Halluzinationsrate
- Verfügt über vielfältige und flexible Wege für den Einsatz in realen Services, darunter Hugging Face Transformers, vLLM, Docker und APIs, sowie entwicklerfreundliche Funktionen
Überblick über Qwen3-Omni und seine Bedeutung
- Qwen3-Omni ist ein durchgängiges mehrsprachiges omnimodales LLM (open-source large language model), das vom Qwen-Team von Alibaba Cloud entwickelt wurde
- Das Projekt zeichnet sich dadurch aus, dass es selbst unter Open-Source-Multimodal-KI selten ist, Text, Bilder, Audio und Video integriert zu verstehen und in Echtzeit Reaktionen zu erzeugen
- Gegenüber konkurrierenden Open-Source-Lösungen bietet es Stärken wie breite Sprachunterstützung, Echtzeit-Streaming und hochpräzises Audio-Captioning
- Neue Services wie natürlichsprachliche Frage-Antwort-Systeme, Audio-/visuelle Situationsanalyse und zeitbasierte multimodale Interfaces lassen sich schnell praktisch umsetzen
Hauptmerkmale
- Multimodale Verarbeitung: Verarbeitet Text-, Bild-, Audio- und Videoeingaben gemeinsam und erzeugt Text-/Sprachantworten in Echtzeit
- Leistung auf dem neuesten Stand der Technik: In 22 von 36 audio-/videobezogenen Benchmarks SOTA, 32 SOTA im Open-Source-Vergleich; ASR- und Sprachdialogleistung ist vergleichbar mit Gemini 2.5 Pro
- Breite Sprachunterstützung: Unterstützt 119 Textsprachen, 19 Spracheingabesprachen und 10 Sprachausgabesprachen
- Echtzeit-Streaming: Natürliches Turn-Taking und schnelle unmittelbare Antworten
- Nutzerspezifische Steuerung: Feingranulare Verhaltenssteuerung und Anpassungsfähigkeit über System-Prompts
- MoE-basierte Architektur: Thinker–Talker-Design, AuT-Pretraining und Multi-Codebook-Struktur für extrem niedrige Latenz und hohe Effizienz
- Open Source für Audio-Captioning-Modell: Qwen3-Omni-30B-A3B-Captioner unterstützt detaillierte Audiobeschreibungen und Halluzinationsvermeidung
Beispiel-Szenarien nach unterstütztem Einsatzbereich
- Audio: Spracherkennung, Sprachübersetzung, Musik-/Klanganalyse, Audio-Captioning usw.
- Visuell: Komplexes Bild-OCR, Objekterkennung, bildbasiertes QA, Lösen von Mathematikaufgaben, Videobeschreibung und Wegfindung, Analyse von Szenenwechseln usw.
- Audio + Visuell: Multimodales QA, Dialoge, sprachbasierter Aufruf von Agenten usw.
- Downstream-Fine-Tuning: Fine-Tuning des Captioning-Modells mit Qwen3-Omni-30B-A3B-Instruct
Beschreibung der einzelnen Modelle
- Qwen3-Omni-30B-A3B-Instruct: Audio-, Video- und Texteingabe + Text-/Sprachausgabe (thinker+taker)
- Qwen3-Omni-30B-A3B-Thinking: Audio-, Video- und Texteingabe + Textausgabe (nur thinker, chain-of-thought reasoning)
- Qwen3-Omni-30B-A3B-Captioner: Audioeingabe → Textausgabe, detaillierte Beschreibungen und minimierte Halluzinationen (auf Captioning spezialisiert)
Wichtige Einsatzumgebungen und Vorteile
- Integration in Hugging Face Transformers: Einfache Code-Einbettung, flexible Verarbeitung verschiedener Eingabekanäle (B64, URL usw.), Unterstützung für FlashAttention 2
- vLLM: Stärken bei niedriger Latenz und hoher Parallelität für großskalige produktive Services, schnelle Batch-Inferenz, einfache Skalierung in Multi-GPU-Umgebungen, Vorteile bei Server-API-Integration
- Bereitstellung als Docker-Image: Minimiert Umgebungskonflikte, erleichtert Experimente und Deployment
- DashScope API: Offizielle Alibaba-API, unterstützt sowohl Echtzeit- als auch Offline-Nutzung
- Web-/On-Premise-Demos: Webbasierte Erprobung auch ohne separate Einrichtung möglich
Praxisbeispiele und Tipps
Kernalgorithmen und Funktionen
- Mit der Thinker–Talker-Struktur sind getrennte, fortgeschrittene Inferenz und Sprachsynthese möglich
- Unterstützt konsistente APIs und explizite Prompt-Verarbeitung für verschiedene Eingabekombinationen (nur Text / Text + Bild / Audio / Video usw.)
- Wenn Sprachausgabe nicht gewünscht ist, gibt es eine Option zur Speichereinsparung (mehr als 10 GB Speicherersparnis)
- Unterstützt Optionen für verschiedene Sprachsynthesen (Ethan, Chelsie, Aiden usw.), auswählbar über den Parameter
speaker
Erweiterte Batch-/Dialogbeispiele
- Effizient für große Datenmengen, Benchmarks und dialogorientierte Services, da mehrere multimodale Nachrichten auf einmal zusammengeführt und verarbeitet werden können
- Erzeugt maßgeschneiderte Antworten für jede Nachricht (Kombinationen aus Text, Bild, Audio und Video)
Produktiver Einsatz auf Basis von vLLM
- Über Parameter-Settings (
tensor_parallel_size,max_num_seqs,limit_mm_per_promptusw.) sind parallele Inferenz und Speicher-Tuning möglich vLLM serveunterstützt dialogbasierte Nutzung per API; Audioausgabe des Instruct-Modells soll künftig ebenfalls unterstützt werden
API und Umgebung
- Über die DashScope API werden API-Dokumentationen für Cloud-Echtzeit, Offline- und Captioning-Anwendungen (China/global) bereitgestellt
- Flexibel für produktive Services und Forschung, da vLLM, Official API und Transformers-Umgebungen gleichermaßen unterstützt werden
Systemspezifikationen/Empfehlungen
- Für BF16-Präzision wird je nach Video von 15 bis 120 Sekunden ein minimaler Speicherbedarf von 68–145 GB angegeben
- GPU-Umgebung und Unterstützung für FlashAttention 2 erforderlich
- Tipp zur Prompt-Nutzung: Explizite Textanweisungen zusammen mit multimodalen Eingaben verwenden
Agenten- und Downstream-Nutzung
- Aufbau vielfältiger Agenten möglich, etwa für audiobasierte Function Calls, Echtzeit-Multimodal-Dialoge, Analyse- und Assistenz-Services sowie detailliertes Audio-Captioning
- Beispiele für Rollensteuerung sowie die Festlegung von Gesprächsstil und Rahmen über System-Prompts werden bereitgestellt
Fazit
Qwen3-Omni bietet unter den Open-Source-LLMs eine weltweit führende allgemeine Integration von Text + Sprache + Bild + Video und ist ideal für Echtzeit- und großskalige Webservices, Forschung und interne Implementierungen in Organisationen. Die enge Integration mit vLLM, API- und Docker-Umgebungen sowie die hohe Kompatibilität und die Unterstützung durch detaillierte Anwendungsbeispiele bieten sehr große Vorteile für Entwicklungseffizienz und Wettbewerbsvorsprung.
2 Kommentare
Koreanisch – es wird also Koreanisch unterstützt!
Hacker-News-Kommentare
Als ich auf Englisch damit gesprochen habe, fühlte es sich sehr langsam an, aber auf Spanisch wirkte es deutlich schneller. Es ist wirklich beeindruckend, dass wir bald solche enormen Funktionen wie Echtzeitübersetzung nutzen können. Wenn US-Labore nicht aktiv in den Open-Weights-Wettbewerb einsteigen, wird am Ende wohl China den AI-Markt dominieren. Datenschutz- oder Dateneigentums-sensible Amerikaner könnten letztlich 1.000- bis 2.000-Dollar-Geräte zu Hause haben, auf denen offene chinesische Modelle laufen. Das fühlt sich nach einem wirklich erstaunlichen Wandel an.
Während ich in den USA lebe, sehe ich Berichte darüber, dass China Linux stark fördert, offene CPU-Architekturen wie RISC-V und sogar selbst gehostete offene Modelle vorantreibt. Langsam habe ich das Gefühl, dass eher wir die „Bösen“ sind.
Ich betreibe tatsächlich zwei 3090er zu Hause mit Qwen3 und nutze sie zusammen mit Home Assistant und sogar esp32-Sprachsatellitengeräten. Es funktioniert erstaunlich gut.
Der durchschnittliche Amerikaner scheint kaum bereit zu sein, 1.000 bis 2.000 Dollar extra für datenschutzwahrende Technik auszugeben. Die meisten liefern ohnehin bereits Audio und Video aus ihrem gesamten Zuhause ohne richterlichen Beschluss über IoT-Kameras wie Ring an den Staat, nur um 20 bis 200 Dollar zu sparen.
Man kann es direkt unter https://chat.qwen.ai/ ausprobieren. Für den Sprachmodus muss man sich mit Google oder GitHub anmelden. Es gibt verschiedene Stimmen, zum Beispiel Dylan (ein Teenager, der in den Gassen Pekings aufgewachsen ist), Peter (ein Sketch-Experte aus Tianjin), Cherry (eine fröhliche und positive junge Frau), Ethan (ein lebhafter und warmherziger Junge), Eric (ein besonderer Mann aus Chengdu in Sichuan) und Jada (eine charismatische ältere Schwester aus Shanghai).
Besonders lustig ist es, die Stimmen in anderen Sprachen zu testen. Auf Russisch klingt Ryan wie ein Westler, der erst vor einem Monat angefangen hat, Russisch zu lernen, Dylan wirkt natürlicher, und die anderen Stimmen sprechen Russisch mit starkem asiatischem Akzent, was jede auf ihre eigene Weise interessant macht.
Ich sehe nur Omni Flash und frage mich, ob das so korrekt ist.
Die Model Weights sind 70 GB groß, und die Dateigröße wird auch auf Hugging Face angezeigt (Qwen/Qwen3-Omni-30B-A3B-Instruct). Das ist für lokales Ausführen eine ziemlich zugängliche Größe. Ich frage mich, ob bald ein macOS-Port kommt; derzeit scheint eine NVIDIA-GPU zwingend nötig zu sein.
Auf BF16-Basis dürfte es nach Quantisierung (Q4) auch problemlos auf eine 24-GB-GPU passen. Ich denke, es ist ähnlich wie andere Modelle aus der 30B-A3B-Familie. Ich hatte befürchtet, es könnte eher 200B+ groß sein, bin also erleichtert.
Ich hatte keine Zeit, es auszuprobieren, aber ein Versuch, es mit dem gestern veröffentlichten Apple-Mojo-Stuff zu verbinden, könnte interessant sein. Wie ausgereift das wäre, ist noch unklar, aber es klingt nach einer spannenden Herausforderung.
Ich frage mich, ob es eine Inference Engine gibt, die unter macOS läuft.
Ich würde gern wissen, ob es auch auf einer 5090 läuft oder ob man mehrere GPUs koppeln kann, beziehungsweise ob NVIDIA das blockiert hat.
Hier ist ein Demo-Video; besonders die Szene, in der Video- und Spracheingaben in eine andere Sprache übersetzt und dann wieder als Sprache ausgegeben werden, war das Beeindruckendste, was ich bisher gesehen habe.
YouTube-Demo-Video
Der eigentliche Hebel in diesem Bereich ist Performance pro Größe. Wenn ein Open-Weights-Wettbewerb entsteht, erzwingt das Innovation bei der Effizienz. Vielleicht entstehen dadurch sogar Vorteile, an die Closed-Weights-Modelle gar nicht denken. Ich frage mich, wann clusterartige kollektive Inference-Mechanismen weit genug sein werden, dass acht 30B-Modelle auf einem einzelnen H100-Server ein einziges 240B-Modell bei der Genauigkeit übertreffen.
Aus Neugier habe ich ein paar kurze Audioclips eingegeben, und es unterscheidet sogar Instrumente wie Klavier und Schlagzeug. Ich habe bisher noch nicht viel multimodale LLM-Forschung gesehen, die sich auf Audioerkennung jenseits von Sprache konzentriert. Es wäre schön, eine tiefergehende Analyse zum aktuellen Stand der Technik (SOTA) zu sehen.
Ich frage mich, was „native video support“ konkret bedeutet. Geht es nur darum, fortlaufende Full-Frame-Bilder zu interpretieren, wodurch schnelle Ereignisse verpasst werden könnten, oder steckt etwas Komplexeres dahinter?
Ich denke, Spracheingabe plus Sprachausgabe ist wirklich eine große Veränderung. Theoretisch kann man per Sprache sprechen und sofort in die eigene Sprache oder die des Gegenübers übersetzen. Im Moment braucht man dazwischen noch verschiedene Technologien wie Wakeword, Speech-to-Text und Text-to-Speech, aber dieses Modell scheint zumindest in der 32B-Klasse etwa drei Versionen zu haben, die sowohl Sprachinput als auch -output unterstützen. Je nach Architektur könnte das künftig direkt zu Hause oder auf Geräten wie einem „AI-Toaster“ laufen.
Wenn man so ein Modell per Tool Calls an ein Hausautomationssystem anbindet, gibt es enorme Möglichkeiten. Seit ChatGPT diese Funktion bekommen hat, habe ich darauf gewartet, dass andere Dienste das auch unterstützen. Gerade in Situationen wie beim Kochen, wenn man die Hände nicht frei hat („Lies mir den nächsten Schritt vor, ich habe Fleisch an den Händen“, „Wie viel Mehl brauche ich für eine Mehlschwitze?“, „Ich habe keine Zitrone, was kann ich stattdessen nehmen?“), wäre das eine revolutionäre Anwendung.
Vor allem für das Sprachenlernen dürfte das enorm hilfreich sein. Es sieht auch so aus, als könne man es lokal betreiben. Besonders gespannt wäre ich, wenn die unsloth-Entwickler sich damit beschäftigen.
Die Thinker/Speaker-Architektur von Qwen ist wirklich interessant. Sie ähnelt meiner Vorstellung davon, wie menschliche multimodale Kognition funktioniert: Ein Bild von einem Apfel, die Schreibweise „apple“ und der Klang werden alle auf dasselbe Konzept abgebildet, ohne dass zwischendurch zwingend Text durchlaufen werden muss.
Ich frage mich, ob es gute Materialien gibt, um multimodale Modelle zu lernen. Ich weiß nicht so recht, wo man am besten anfängt.