31 Punkte von GN⁺ 2026-01-23 | 3 Kommentare | Auf WhatsApp teilen
  • Qwen3-TTS ist eine mehrsprachige Sprachgenerierungs-Modellreihe, die Stimmklonen, Voice Design, die Erzeugung extrem hochwertiger menschenähnlicher Stimmen und natürlichsprachliche Steuerung unterstützt
  • Unterstützt 10 Hauptsprachen und verschiedene Dialekte wie Chinesisch, Englisch, Japanisch und Koreanisch und ist in zwei Modellgrößen verfügbar: 1.7B und 0.6B
  • Über den eigens entwickelten Qwen3-TTS-Tokenizer-12Hz-Encoder werden Sprachsignale effizient komprimiert, während nichtsprachliche Informationen und die akustische Umgebung vollständig erhalten bleiben
  • Mit einer Dual-Track-Streaming-Architektur wird nach Eingabe eines einzelnen Zeichens sofort das erste Audiopaket ausgegeben, wodurch eine Echtzeit-Syntheseleistung mit 97 ms Latenz erreicht wird
  • Durch die Open-Source-Veröffentlichung können Entwickler und Unternehmen die hochwertige Sprachgenerierungstechnologie direkt nutzen

Überblick über Qwen3-TTS

  • Qwen3-TTS ist eine von Qwen entwickelte leistungsstarke Sprachgenerierungs-Modellreihe, die Voice-Design-, Klon-, Generierungs- und Steuerungsfunktionen integriert bereitstellt
    • Klangfarbe, Emotion und Intonation lassen sich per natürlichsprachlichem Befehl steuern
    • Zugriff über die Qwen API und GitHub
  • Basierend auf dem Multi-Codebook-Encoder Qwen3-TTS-Tokenizer-12Hz werden schnelle Sprachrekonstruktion mit hoher Wiedergabetreue und effiziente Komprimierung umgesetzt
  • Dual-Track-Bidirektional-Streaming unterstützt Sprachausgabe in Echtzeit auf Zeichenebene

Modellaufbau

  • Das Gesamtmodell ist in zwei Größen verfügbar: 1.7B und 0.6B
    • 1.7B: bietet die höchste Leistung und präzise Steuerungsfunktionen
    • 0.6B: ausgewogenes Verhältnis zwischen Leistung und Effizienz
  • Beide Modelle unterstützen Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch und Italienisch
  • Mit 3 Sekunden Spracheingabe ist schnelles Stimmklonen möglich; auch für Fine-Tuning (FT) nutzbar

Zentrale technische Merkmale

  • Hohe Ausdrucksstärke der Sprachgenerierung
    • Qwen3-TTS-Tokenizer-12Hz modelliert und komprimiert die hochdimensionalen semantischen Eigenschaften akustischer Signale
    • Nichtsprachliche Informationen und Umgebungsgeräusche bleiben erhalten; die leichte non-DiT-Struktur unterstützt schnelle Rekonstruktion
  • End-to-End-Multi-Codebook-Struktur
    • Beseitigt Informationsengpässe und Fehlerakkumulation des bisherigen LM+DiT-Ansatzes
    • Verbessert Modellgeneralität, Generierungseffizienz und Leistungsgrenzen
  • Streaming-Synthese mit extrem niedriger Latenz
    • Dual-Track-Hybridstruktur unterstützt gleichzeitig Streaming und Non-Streaming
    • Erstes Audio nach Eingabe eines einzelnen Zeichens, 97 ms Latenz erreicht
  • Intelligentes Textverständnis und Sprachsteuerung
    • Mehrdimensionale Eigenschaften wie Klangfarbe, Emotion und Prosodie lassen sich per natürlichsprachlichem Befehl steuern
    • Passt Tonfall und Rhythmus automatisch an die Textbedeutung an

Bewertung der Modellleistung

  • Voice Design: Im Benchmark InstructTTS-Eval werden höhere Befolgung von Anweisungen und größere Ausdrucksstärke als bei MiniMax-Voice-Design erreicht
  • Sprachsteuerung: Bei mehrsprachiger Generalisierung mit einem einzelnen Sprecher wurden WER 2.34 % und ein Stilsteuerungswert von 75.4 % erzielt
    • Auch bei 10 Minuten kontinuierlicher Synthese bleiben WER-Werte von 2.36 % für Chinesisch und 2.81 % für Englisch erhalten
  • Stimmklonen: In Seed-tts-eval stabiler als MiniMax und SeedTTS
    • Durchschnittlich über 10 Sprachen WER 1.835 %, Sprechersimilarität 0.789, bessere Leistung als CosyVoice3

Leistung des Tokenizers

  • Erreicht SOTA auf dem LibriSpeech test-clean-Datensatz
    • PESQ: Wideband 3.21, Narrowband 3.68
    • STOI: 0.96, UTMOS: 4.16
    • Mit einer Sprechersimilarität von 0.95 wird Sprecherinformation nahezu verlustfrei erhalten

Voice Design und Beispiele

  • Auf Basis natürlichsprachlicher Beschreibungen lassen sich benutzerdefinierte Klangfarben erzeugen
    • Feine Steuerung von Eigenschaften wie Geschlecht, Alter, Emotion und Intonation
    • Beispiele: befehlender männlicher Stimmklang, emotionale weibliche Stimme, altersabhängige Klangfarben
  • Mit der Funktion Timbre Reuse können erzeugte Klangfarben gespeichert und wiederverwendet werden
    • Nutzbar für Mehrsprecher-Dialoge oder lange Narrationen

CustomVoice und Klangfarbensteuerung

  • Auch nach sprecherspezifischem Fine-Tuning bleiben Zielklangfarbe und mehrsprachige Äußerungen erhalten
  • Unterstützt sowohl die Steuerung einzelner als auch mehrerer Eigenschaften
    • Zum Beispiel: Traurigkeit, Wut, Flüstern, langsame Sprechweise und andere fein abgestufte Emotionen
  • Es werden 9 öffentliche Klangfarbensets bereitgestellt
    • Einschließlich Chinesisch, Englisch, Japanisch, Koreanisch und Dialekten
    • Beispiele: Serena, Uncle Fu, Vivian, Ryan, Sohee usw.

Voice Clone und mehrsprachiges Klonen

  • Mit 3 Sekunden Spracheingabe wird schnelles Stimmklonen durchgeführt
    • Neben Klonen auf Chinesisch und Englisch wird auch sprachübergreifendes Klonen unterstützt
    • Zum Beispiel sind mehrsprachige Äußerungen auf Japanisch, Koreanisch usw. möglich
  • Robustheit gegenüber Textrauschen ist gegeben
    • Auch Sätze mit komplexen Symbolen, Pinyin und Sonderzeichen werden korrekt ausgesprochen

Audiorekonstruktion auf Tokenizer-Basis

  • Vielfältige akustische Elemente wie Dialekte, Gesang, nichtsprachliche Laute und Hintergrundgeräusche können rekonstruiert werden
  • Die Rekonstruktionsqualität mit hoher Wiedergabetreue gegenüber dem Original wurde nachgewiesen

3 Kommentare

 
sudosudo 2026-01-24

Läuft sogar auf einem ollen Laptop.

 
xguru 2026-01-23

Ich nutze in letzter Zeit lokal auch wirklich sehr viele Qwen-basierte Modelle.
Anfangs dachte ich, das liegt einfach daran, dass es ein Alibaba-Modell ist, aber es ist beeindruckend, wie es kontinuierlich verbessert und erweitert wird.

 
GN⁺ 2026-01-23
Hacker-News-Kommentare
  • Ich habe es auf macOS mit mlx-audio ausprobiert. Möglich wurde das dank des Tweets von Prince Canuma
    Das von mir verwendete Skript ist hier
    Wenn man es mit uv ausführt, lädt es zunächst ein 4,5-GB-Modell herunter. Ein Beispielbefehl sieht so aus
    uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav

    • Wirklich großartig. Ein weiterer Sieg für uv
  • Wer Voice Cloning selbst ausprobieren will, kann das in der Hugging Face-Demo tun
    Geht auf den Tab „Voice Clone“, fügt den Beispieltext ein, nehmt eure Stimme mit dem Mikrofon auf und gebt dann einen anderen Text ein — dann kann eine Version erzeugt werden, die ihn mit eurer eigenen Stimme vorliest
    Die von mir erzeugten Audiosamples habe ich hier geteilt

    • Ehrlich gesagt wirkt das ein bisschen beängstigend. Zusammen mit z-image-turbo muss man jetzt wohl davon ausgehen, dass alles auf dem Bildschirm gefälscht sein kann. Wir treten in ein Zeitalter ein, in dem ohne kryptografische Verifikation nichts mehr vertrauenswürdig ist
    • Die HF-Demo war überlastet, aber lokal lief es gut. Das 1.7B-Modell trifft den Tonfall des Sprechers gut, hat aber zu wenig Intonationsvariation, sodass es monoton klingt. Vermutlich liegt das daran, dass die Demo die Steuerung der Expressivität nicht offenlegt. Trotzdem war die Rauschbehandlung deutlich besser als bei 0.6B. Ohne FlashAttention war es auf einer 5090-GPU mit etwa 0,3-facher Echtzeitgeschwindigkeit langsam, aber die Qualität war beeindruckend
    • Erstaunliche Technik. Meine geklonte Stimme klang wirklich wie ich. Es scheint viele gute und schlechte Einsatzmöglichkeiten zu geben — vom Vorlesen eines Märchenbuchs durch die verstorbene Großmutter für ihre Enkel bis hin zu Betrug oder automatisierter Podcast-Produktion
    • Nur anhand der geposteten Aufnahmen ist die Clone-Leistung schwer zu beurteilen. Man bräuchte auch ein Sample der Originalstimme
    • Hat Spaß gemacht, das auszuprobieren. Wenn ich nur ein paar Minuten meiner Stimme aufnehme, könnte ich mir irgendwann ein Hörbuch erstellen, in dem ich mir selbst ein Buch vorlese
  • Interessantes Modell. Ich habe das 0.6B-Modell auf einer 1080-GPU laufen lassen und konnte in Blöcken von 200 Zeichen ohne OOM generieren. Ich wollte ein Daodejing-Hörbuch erstellen, aber die Ergebnisse waren jedes Mal anders, fast wie ein magisches Roulette. Manche Stellen waren klar, andere klangen lachend oder stöhnend — die Emotionen schwankten stark. Die Stimme Ryan war am stabilsten, Eric klang wie ein übertriebener chinesischer Akzent. Wenn die Emotionen konsistent wären, wäre das das beste TTS, das ich bisher benutzt habe

    • Hast du versucht, die Emotionen direkt festzulegen? Wenn man es leer lässt, wird es vielleicht auf zufällige Emotion (rng) gesetzt
    • Mich würde das RTF (Real-Time Factor) auf einer 1080 interessieren. Ich prüfe gerade, ob das 0.6B-Modell Echtzeit-Inferenz auf Edge-Geräten schafft
  • Ich würde das Qwen-Team gern bitten, ein Modell herauszubringen, das die Coding-Fähigkeiten von Opus 4.5 übertrifft. Ich mag die Modelle, aber die geschlossene Führung und politische Polarisierung dieses Unternehmens nicht

    • Vielleicht ist das genau der Kommentar, auf den sie gewartet haben
    • Ich habe dasselbe Problem (bin Däne). Ich habe mit Open Code und Minimax m2.1 (10 Dollar im Monat) getestet, und das funktionierte ziemlich gut. GLM 4.7 ist ebenfalls hervorragend. Einen detaillierten Vergleich gibt es in diesem Beitrag. Es gibt keinen Grund, Geld an ein Unternehmen zu schicken, das man nicht mag
    • Ich frage mich, was mit „politisch polarisierend“ gemeint ist
    • Ich erziele gute Ergebnisse mit GLM 4.7. Ich lasse zwei Max-Accounts 24/7 laufen und mache einen Teil des Code-Reviews mit Claude. Wenn die Kosten das Problem sind, ist GLM 4.7 eine gute Wahl
    • Ich wollte fragen, ob du das neue GLM 4.7 schon ausprobiert hast
  • Dass sich diese Technologie so gruselig weit entwickelt hat, ist lange her. Ich nutze seit 2018 AI-TTS, aber bei diesem Modell hatte ich zum ersten Mal das Gefühl, dass die Restaurierung alter Radiohörspiele möglich ist. Zum Beispiel könnten durch Bandschäden verlorene Dialogteile anhand des Kontexts rekonstruiert werden. Vielleicht ließen sich Dutzende Stunden Audio von Schauspielern wie Bob Bailey wiederbeleben

    • Die Samples, die ich gehört habe, klangen wie eine Synchronisation eines Animes im Miyazaki-Stil. Ich frage mich, ob es mit solchen Daten trainiert wurde
    • Ich plane ebenfalls ein Projekt zur Restaurierung von Radiofolgen von „Have Gun - Will Travel“. Wenn man schwer verständliche Stellen wegen Bandschäden oder Störungen durch Soundeffekte wiederherstellen könnte, wäre das wirklich erstaunlich. Natürlich ist auch das Missbrauchspotenzial groß
  • Mich würde interessieren, ob es jemand auf dem Mac ausprobiert hat. Die Installationsanleitung setzt NVIDIA-GPU (CUDA, FlashAttention) voraus, daher weiß ich nicht, ob es mit dem PyTorch-Metal/MPS-Backend funktioniert

    • Es lässt sich ohne FlashAttention mit der Option --no-flash-attn ausführen. Ich mache das unter Windows auch so
    • Ich würde empfehlen, mit modal eine Metal-Umgebung zu mieten
    • Wegen der FlashAttention-Abhängigkeit geht es derzeit nicht. Hoffentlich portiert das jemand für Metal
  • Im letzten Age-Control-Beispiel war „amerikanischer Akzent“ eingestellt, aber für meine Ohren klang es eher wie ein Australier, der einen amerikanischen Akzent nachahmt

  • Das scheint wirklich gut für die Produktion von Hörbüchern geeignet zu sein. Bisher fehlte bestehendem AI-TTS noch Natürlichkeit

  • Die Synchronsprecher-/Voice-Acting-Branche gart jetzt langsam durch. Einige Demos lieferten Stimmen, die deutlich ausgereifter klangen als bei Indie-Synchronsprechern

  • Ich mache mir Sorgen, dass meine Großmutter irgendwann damit betrogen wird

    • Bis jetzt scheint das der wichtigste Anwendungsfall zu sein
    • Aber die heutigen Großmütter gehören zur QVC-und-Telefonwahrsager-Generation, also lassen sie sich inzwischen vielleicht nicht mehr so leicht von solchen Dingen täuschen