1 Punkte von GN⁺ 2025-12-12 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen3-Omni-Flash-2025-12-01 verarbeitet Text, Bilder, Audio und Video gleichzeitig und erzeugt im Echtzeit-Streaming Text- und Sprachausgaben, wodurch ein multimodales Modell der nächsten Generation ermöglicht wird
  • Das Verständnis für Audio- und Videoanweisungen sowie die Dialogstabilität wurden deutlich verbessert, sodass eine natürliche und konsistente Sprach-Video-Interaktion realisiert wird
  • Mit der Funktion zur vollständigen Kontrolle des Systemprompts lassen sich Details wie Persönlichkeitsstil, Sprachstil und Ausgabelänge präzise anpassen
  • Unterstützt 119 Sprachen für Text, 19 Sprachen für Spracherkennung und 10 Sprachen für Sprachsynthese, wodurch mehrsprachige Konsistenzprobleme behoben werden
  • In allen Bereichen wie logischem Schlussfolgern, Code-Generierung sowie visueller und auditiver Verarbeitung wurde die Leistung gesteigert, was eine natürliche und präzise KI-Interaktionserfahrung liefert

Überblick zu Qwen3-Omni-Flash-2025-12-01

  • Qwen3-Omni ist ein natives multimodales Großmodell, das Text, Bilder, Audio und Video verarbeitet und Text und natürliche Sprachausgaben in Echtzeit generiert
  • Diese Version Qwen3-Omni-Flash-2025-12-01 ist ein komplettes Upgrade von Qwen3-Omni
  • Durch die umfassende Verbesserung von Modellleistung und Effizienz liefert sie schnellere und genauere multimodale Verarbeitungsfähigkeiten

Hauptverbesserungen

  • Stärkung der Audio-Video-Interaktion

    • Das Verständnis und die Ausführung von Sprach- und Videoanweisungen wurden deutlich verbessert, wodurch das Problem der Leistungseinbußen in alltäglichen Gesprächssituationen gelöst wurde
    • Die Stabilität und Konsistenz mehrrunder Audio-Video-Dialoge wurde verbessert, wodurch eine natürlichere Interaktion möglich ist
  • Erweiterte Kontrolle des Systemprompts

    • Der Systemprompt kann vollständig angepasst werden, sodass die exakte Steuerung des Modellverhaltens möglich ist
    • Details wie Persönlichkeitsstil (z. B. süß, cool, animeartig), Tonfall und Ausgabelänge können feinjustiert werden
  • Verbesserte Zuverlässigkeit der Mehrsprachenunterstützung

    • Unterstützt textbasierte Interaktionen in 119 Sprachen, 19 Sprachen für Spracherkennung und 10 Sprachen für Sprachsynthese
    • Frühere Sprachinstabilitätsprobleme wurden behoben und eine genaue, konsistente mehrsprachige Leistung sichergestellt
  • Natürliche Sprachsynthese

    • Sprechtempo, Pausen und Intonation werden automatisch anhand des Textkontexts angepasst, um eine menschengleiche Sprachqualität zu erzielen
    • Langsame oder mechanisch klingende Sprache wird reduziert und es wird eine ausdrucksstarke, natürliche Sprachausgabe bereitgestellt

Leistungskennzahlen

  • Verbesserte Textverständnis- und Generierungsfähigkeiten

    • ZebraLogic +5.6, LiveCodeBench-v6 +9.3, MultiPL-E +2.7, Schreibqualitätsindex WritingBench +2.2 wurden verbessert
    • Höhere Zuverlässigkeit bei der Ausführung komplexer mehrstufiger Anweisungen
  • Verbesserte Spracherkennungsgenauigkeit

    • In Fleurs-zh wurde die Wortfehlerrate reduziert, und VoiceBench +3.2 verbessert
    • Die Spracherkennung in realen Gesprächsumgebungen wurde gestärkt
  • Verbesserte Qualität der Sprachsynthese

    • In chinesischen und mehrsprachigen Umgebungen wird eine natürliche Intonation und ein natürliches Rhythmusmuster umgesetzt
    • Eine Sprechqualität nahe der menschlichen Stimme wurde erreicht
  • Verbesserte visuelle Verständlichkeit

    • In visuellen Schlussfolgerungsaufgaben wurden MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 verbessert
    • Die Fähigkeit zur Interpretation komplexer visueller Inhalte wie Diagramme und mathematische Formen wurde ausgebaut
  • Verbesserte Videoverstehensleistung

    • Mit MLVU +1.6 wurde das semantische Videoverständnis gestärkt
    • Eine verbesserte Audio-Video-Synchronisation stärkt die Echtzeit-Video-Kommunikation

Zukünftige Pläne

  • Es ist geplant, Nutzerfeedback und innovative Anwendungsszenarien auf Basis von Qwen3-Omni zu sammeln
  • Zukünftige Erweiterungen sind vorgesehen, darunter mehrsprecherbasierte Spracherkennung (ASR), Video-OCR, audio-visuelles selbstüberwachtes Lernen sowie Unterstützung für agentenbasierte Workflows und Funktionsaufrufe

Zitationshinweise

  • Für die Forschung wird die folgende Zitierung empfohlen

1 Kommentare

 
GN⁺ 2025-12-12
Hacker-News-Kommentare
  • Dieses Modell hat eine 30B-Parameter-MoE-Struktur, wobei die aktiven Parameter bei etwa 3B liegen.
    Es ist der Nachfolger des früheren 7B-Omni-Modells, daher ist eine ähnliche Leistung wie bei Qwen2.5-Omni-7B zu erwarten.
    Da es nicht viele veröffentlichte Omni-Modelle gibt, halte ich das für ein ziemlich bedeutendes Release.
    Ich persönlich würde dieses Modell gern als Ersatz für die Ein-/Ausgabe-Schnittstelle (Tastatur·Monitor) verwenden und die Berechnungen im Backend mit anderer Technik abwickeln.
    Es gibt außerdem auch eine Reasoning-Version, und die Funktion, während des Voice-Chats „denke nach“-Tokens auszusprechen, klingt ziemlich unterhaltsam.

    • Dieses Modell besteht aus mehreren übereinandergestapelten Komponenten.
      650M Audio-Encoder, 540M Vision-Encoder, 30B-A3B LLM, 3B-A0.3B Audio-LLM, und ein 80M-Transformer/200M-ConvNet zur Umwandlung von Audio-Tokens in Wellenformen.
      Es ist eine nicht öffentlich freigegebene Gewichts-Update-Version von Qwen3-Omni; zuvor war Qwen/Qwen3-Omni-30B-A3B-Instruct veröffentlicht worden.
      Derzeit wird es von Open-Source-Inferenz-Frameworks noch nicht vollständig unterstützt und läuft daher nur sehr langsam in transformers.
    • Laut den Alibaba-Cloud-Dokumenten ist dieses Modell nicht Open Source.
    • Ich konnte die neuen Gewichte nirgends finden. Ich habe Modelscope und Hugging Face geprüft, aber dort waren sie nicht, und das Kontextfenster scheint auf 200K+ Tokens erweitert worden zu sein.
    • Interessant ist, dass die Reasoning-Version Denk-Tokens ausspricht. Claude hat früher wohl auch so funktioniert.
    • Es wäre lustig, den Denk-Tokens einen Hall-Effekt zu geben, damit man den „Denksound“ des Modells hören kann.
  • Ich habe mich gefragt, ob Qwen3-Omni wie GPT-4o Echtzeit-Konversationen unterstützt.
    Laut Dokumentation schien das nicht der Fall zu sein, aber tatsächlich wird es wohl unterstützt.
    Mich würde interessieren, ob es jemand lokal in einer Nicht-NVIDIA-Umgebung betrieben hat.

    • Auf der offiziellen Chat-Seite gibt es noch kein Audio→Audio-Modell.
      Ich prüfe das oft mit Homonym-Tests (record vs record) oder mit Anfragen zur Änderung des Sprechtons.
    • Da Inferenz-Frameworks wie vLLM oder SGLang es noch nicht vollständig unterstützen, ist es in Nicht-NVIDIA-Umgebungen nicht möglich.
    • Trotzdem scheint es native speech-to-speech-Funktionen zu geben.
    • Ich denke, es gibt noch keine wirklich ausgereifte lokale Voice-Chat-App.
      Selbst Dinge wie Silly Tavern sind fast auf unusable-Niveau.
      Aber genau solche lokalen Voice-Modelle werden zum Kern natursprachlicher Workflows werden.
  • Ich habe mich gefragt, ob man auf einem Macbook Omni-Modelle mit GGUF oder MLX betreiben kann.
    Mit LMStudio oder Llama.cpp geht es zwar, aber Mikrofon- oder Webcam-Streaming wird nicht unterstützt.
    Qwen liefert normalerweise Python-Beispiele auf Cuda-Basis, und ich suche nach einer Open-Source-Alternative.

  • Ich nutze Gemini Flash Live 2.5 sehr gern.
    Ich hoffe, dass Version 3.0 bald erscheint.
    Laut Benchmarks soll es besser sein als Gemini Live, aber das muss man selbst testen.
    Persönlich fand ich Qwen-Omni-Modelle in englischzentrierten Umgebungen immer etwas enttäuschend.

  • 32B ist ziemlich klein, daher sollte es auch auf Geräten mit 64GB RAM lauffähig sein.
    Wenn es in Ollama auftaucht, werde ich es selbst testen.

    • Das Qwen3-Omni-30B-A3B-Modell auf Hugging Face scheint im September aktualisiert worden zu sein.
      In den Paper-Benchmarks steht jedoch, dass Qwen3-Omni-Flash-2025-12-01 besser abschneidet als Qwen3-235B-A22B.
      Es verwirrt mich, wie das bei einem 30B-Modell möglich sein soll.
      Die FLASH-Version gibt es nicht auf Hugging Face und es ist sehr wahrscheinlich ein reines API-Modell.
    • Ich lasse es auf einem Mac mit 48GB RAM dank Unified Memory problemlos laufen.
  • Zuerst dachte ich, es sei nur für die API gedacht, aber in der Hugging-Face-Kollektion gibt es das Modell tatsächlich.
    Tatsächlich ist es aber die vorherige Version, und auch die HF-Demo ruft die API auf, statt lokal zu rechnen.

  • Beeindruckend ist, dass Qwen3-Omni 2.5 Flash in allen Benchmarks deutlich übertrifft.
    Es scheint an der Zeit zu sein, LLM-Workloads auf lokale GPUs zu verlagern.

    • Trotzdem sollte man unbedingt mit dem eigenen Datensatz benchmarken.
      Öffentliche Benchmarks sind schwer vertrauenswürdig, und wenn man das Modell allein danach auswählt, kann man enttäuscht werden.
    • Für reine Textaufgaben ist Qwen3-30B-A3B effizienter als Omni.
    • Die Bild-Benchmarks scheinen mit Qwen 2.0 verglichen worden zu sein, was etwas fragwürdig wirkt.
  • Ich habe mich gefragt, warum der Sprechstil von Sprachmodellen so leblos wirkt.
    Vor allem beim Teil über Obstpreise klang es völlig natürlich, aber man konnte sofort erkennen, dass es KI war.
    Vermutlich liegt es an der Intonation oder an der gleichmäßigen Sprechgeschwindigkeit.

    • Ich finde es eher gut, wenn die Emotionen nicht übertrieben sind.
      Übermäßiger Gefühlsausdruck wirkt künstlich.
      Schade war nur, dass es Fehler in der deutschen Aussprache gab.
    • Vielleicht ist es gar nicht vollständig end-to-end multimodal.
      Vermutlich gibt es einen separaten Schritt für die Sprachsynthese, was zu solchen Ergebnissen führt.
      Das ließe sich mit Gesangs- oder Intonationstests überprüfen.
    • Wahrscheinlich liegt es daran, dass zu viele Funktionen wie Vision, Audio, Mehrsprachigkeit und Intonationssteuerung in 30B Parameter gepackt wurden.
      Das Sprachmodell von ChatGPT klingt am natürlichsten.
    • Dass man den KI-Sprechstil sofort erkennt, könnte sogar etwas Gutes sein.
    • Ich mag es eher, wenn KI ihre eigene Intonation (accent) hat.
  • Bei Echtzeit-Sprachausgabe gibt es das Problem, dass sich „denke nach“-Tokens und für den Nutzer bestimmte Äußerungen schwer unterscheiden lassen.

    • Eine einfache Methode ist, den Ausgabestream vor dem TTS zu trennen.
      Reasoning-/strukturierte Tokens gehen auf die eine Seite, der für den Nutzer bestimmte Text auf die andere,
      und nur Letzterer wird synthetisiert, wodurch das hörbare „Nachdenken“ vermieden wird.
  • Es wirkt so, als würde Qwen unklar formulieren, ob Open Weights veröffentlicht werden.
    Tatsächlich bleibt das meiste nicht öffentlich, und manches sieht zwar öffentlich aus, ist aber nur per API verfügbar.
    Dadurch verschwenden Nutzer am Ende Zeit mit der vergeblichen Suche nach dem Modell.