- Qwen3-TTS ist eine mehrsprachige Sprachgenerierungs-Modellreihe, die Stimmklonen, Voice Design, die Erzeugung extrem hochwertiger menschenähnlicher Stimmen und natürlichsprachliche Steuerung unterstützt
- Unterstützt 10 Hauptsprachen und verschiedene Dialekte wie Chinesisch, Englisch, Japanisch und Koreanisch und ist in zwei Modellgrößen verfügbar: 1.7B und 0.6B
- Über den eigens entwickelten Qwen3-TTS-Tokenizer-12Hz-Encoder werden Sprachsignale effizient komprimiert, während nichtsprachliche Informationen und die akustische Umgebung vollständig erhalten bleiben
- Mit einer Dual-Track-Streaming-Architektur wird nach Eingabe eines einzelnen Zeichens sofort das erste Audiopaket ausgegeben, wodurch eine Echtzeit-Syntheseleistung mit 97 ms Latenz erreicht wird
- Durch die Open-Source-Veröffentlichung können Entwickler und Unternehmen die hochwertige Sprachgenerierungstechnologie direkt nutzen
Überblick über Qwen3-TTS
- Qwen3-TTS ist eine von Qwen entwickelte leistungsstarke Sprachgenerierungs-Modellreihe, die Voice-Design-, Klon-, Generierungs- und Steuerungsfunktionen integriert bereitstellt
- Klangfarbe, Emotion und Intonation lassen sich per natürlichsprachlichem Befehl steuern
- Zugriff über die Qwen API und GitHub
- Basierend auf dem Multi-Codebook-Encoder Qwen3-TTS-Tokenizer-12Hz werden schnelle Sprachrekonstruktion mit hoher Wiedergabetreue und effiziente Komprimierung umgesetzt
- Dual-Track-Bidirektional-Streaming unterstützt Sprachausgabe in Echtzeit auf Zeichenebene
Modellaufbau
- Das Gesamtmodell ist in zwei Größen verfügbar: 1.7B und 0.6B
- 1.7B: bietet die höchste Leistung und präzise Steuerungsfunktionen
- 0.6B: ausgewogenes Verhältnis zwischen Leistung und Effizienz
- Beide Modelle unterstützen Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch und Italienisch
- Mit 3 Sekunden Spracheingabe ist schnelles Stimmklonen möglich; auch für Fine-Tuning (FT) nutzbar
Zentrale technische Merkmale
- Hohe Ausdrucksstärke der Sprachgenerierung
- Qwen3-TTS-Tokenizer-12Hz modelliert und komprimiert die hochdimensionalen semantischen Eigenschaften akustischer Signale
- Nichtsprachliche Informationen und Umgebungsgeräusche bleiben erhalten; die leichte non-DiT-Struktur unterstützt schnelle Rekonstruktion
- End-to-End-Multi-Codebook-Struktur
- Beseitigt Informationsengpässe und Fehlerakkumulation des bisherigen LM+DiT-Ansatzes
- Verbessert Modellgeneralität, Generierungseffizienz und Leistungsgrenzen
- Streaming-Synthese mit extrem niedriger Latenz
- Dual-Track-Hybridstruktur unterstützt gleichzeitig Streaming und Non-Streaming
- Erstes Audio nach Eingabe eines einzelnen Zeichens, 97 ms Latenz erreicht
- Intelligentes Textverständnis und Sprachsteuerung
- Mehrdimensionale Eigenschaften wie Klangfarbe, Emotion und Prosodie lassen sich per natürlichsprachlichem Befehl steuern
- Passt Tonfall und Rhythmus automatisch an die Textbedeutung an
Bewertung der Modellleistung
- Voice Design: Im Benchmark InstructTTS-Eval werden höhere Befolgung von Anweisungen und größere Ausdrucksstärke als bei MiniMax-Voice-Design erreicht
- Sprachsteuerung: Bei mehrsprachiger Generalisierung mit einem einzelnen Sprecher wurden WER 2.34 % und ein Stilsteuerungswert von 75.4 % erzielt
- Auch bei 10 Minuten kontinuierlicher Synthese bleiben WER-Werte von 2.36 % für Chinesisch und 2.81 % für Englisch erhalten
- Stimmklonen: In Seed-tts-eval stabiler als MiniMax und SeedTTS
- Durchschnittlich über 10 Sprachen WER 1.835 %, Sprechersimilarität 0.789, bessere Leistung als CosyVoice3
Leistung des Tokenizers
- Erreicht SOTA auf dem LibriSpeech test-clean-Datensatz
- PESQ: Wideband 3.21, Narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- Mit einer Sprechersimilarität von 0.95 wird Sprecherinformation nahezu verlustfrei erhalten
Voice Design und Beispiele
- Auf Basis natürlichsprachlicher Beschreibungen lassen sich benutzerdefinierte Klangfarben erzeugen
- Feine Steuerung von Eigenschaften wie Geschlecht, Alter, Emotion und Intonation
- Beispiele: befehlender männlicher Stimmklang, emotionale weibliche Stimme, altersabhängige Klangfarben
- Mit der Funktion Timbre Reuse können erzeugte Klangfarben gespeichert und wiederverwendet werden
- Nutzbar für Mehrsprecher-Dialoge oder lange Narrationen
CustomVoice und Klangfarbensteuerung
- Auch nach sprecherspezifischem Fine-Tuning bleiben Zielklangfarbe und mehrsprachige Äußerungen erhalten
- Unterstützt sowohl die Steuerung einzelner als auch mehrerer Eigenschaften
- Zum Beispiel: Traurigkeit, Wut, Flüstern, langsame Sprechweise und andere fein abgestufte Emotionen
- Es werden 9 öffentliche Klangfarbensets bereitgestellt
- Einschließlich Chinesisch, Englisch, Japanisch, Koreanisch und Dialekten
- Beispiele: Serena, Uncle Fu, Vivian, Ryan, Sohee usw.
Voice Clone und mehrsprachiges Klonen
- Mit 3 Sekunden Spracheingabe wird schnelles Stimmklonen durchgeführt
- Neben Klonen auf Chinesisch und Englisch wird auch sprachübergreifendes Klonen unterstützt
- Zum Beispiel sind mehrsprachige Äußerungen auf Japanisch, Koreanisch usw. möglich
- Robustheit gegenüber Textrauschen ist gegeben
- Auch Sätze mit komplexen Symbolen, Pinyin und Sonderzeichen werden korrekt ausgesprochen
Audiorekonstruktion auf Tokenizer-Basis
- Vielfältige akustische Elemente wie Dialekte, Gesang, nichtsprachliche Laute und Hintergrundgeräusche können rekonstruiert werden
- Die Rekonstruktionsqualität mit hoher Wiedergabetreue gegenüber dem Original wurde nachgewiesen
3 Kommentare
Läuft sogar auf einem ollen Laptop.
Ich nutze in letzter Zeit lokal auch wirklich sehr viele Qwen-basierte Modelle.
Anfangs dachte ich, das liegt einfach daran, dass es ein Alibaba-Modell ist, aber es ist beeindruckend, wie es kontinuierlich verbessert und erweitert wird.
Hacker-News-Kommentare
Ich habe es auf macOS mit mlx-audio ausprobiert. Möglich wurde das dank des Tweets von Prince Canuma
Das von mir verwendete Skript ist hier
Wenn man es mit
uvausführt, lädt es zunächst ein 4,5-GB-Modell herunter. Ein Beispielbefehl sieht so ausuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavWer Voice Cloning selbst ausprobieren will, kann das in der Hugging Face-Demo tun
Geht auf den Tab „Voice Clone“, fügt den Beispieltext ein, nehmt eure Stimme mit dem Mikrofon auf und gebt dann einen anderen Text ein — dann kann eine Version erzeugt werden, die ihn mit eurer eigenen Stimme vorliest
Die von mir erzeugten Audiosamples habe ich hier geteilt
Interessantes Modell. Ich habe das 0.6B-Modell auf einer 1080-GPU laufen lassen und konnte in Blöcken von 200 Zeichen ohne OOM generieren. Ich wollte ein Daodejing-Hörbuch erstellen, aber die Ergebnisse waren jedes Mal anders, fast wie ein magisches Roulette. Manche Stellen waren klar, andere klangen lachend oder stöhnend — die Emotionen schwankten stark. Die Stimme Ryan war am stabilsten, Eric klang wie ein übertriebener chinesischer Akzent. Wenn die Emotionen konsistent wären, wäre das das beste TTS, das ich bisher benutzt habe
Ich würde das Qwen-Team gern bitten, ein Modell herauszubringen, das die Coding-Fähigkeiten von Opus 4.5 übertrifft. Ich mag die Modelle, aber die geschlossene Führung und politische Polarisierung dieses Unternehmens nicht
Dass sich diese Technologie so gruselig weit entwickelt hat, ist lange her. Ich nutze seit 2018 AI-TTS, aber bei diesem Modell hatte ich zum ersten Mal das Gefühl, dass die Restaurierung alter Radiohörspiele möglich ist. Zum Beispiel könnten durch Bandschäden verlorene Dialogteile anhand des Kontexts rekonstruiert werden. Vielleicht ließen sich Dutzende Stunden Audio von Schauspielern wie Bob Bailey wiederbeleben
Mich würde interessieren, ob es jemand auf dem Mac ausprobiert hat. Die Installationsanleitung setzt NVIDIA-GPU (CUDA, FlashAttention) voraus, daher weiß ich nicht, ob es mit dem PyTorch-Metal/MPS-Backend funktioniert
--no-flash-attnausführen. Ich mache das unter Windows auch soIm letzten Age-Control-Beispiel war „amerikanischer Akzent“ eingestellt, aber für meine Ohren klang es eher wie ein Australier, der einen amerikanischen Akzent nachahmt
Das scheint wirklich gut für die Produktion von Hörbüchern geeignet zu sein. Bisher fehlte bestehendem AI-TTS noch Natürlichkeit
Die Synchronsprecher-/Voice-Acting-Branche gart jetzt langsam durch. Einige Demos lieferten Stimmen, die deutlich ausgereifter klangen als bei Indie-Synchronsprechern
Ich mache mir Sorgen, dass meine Großmutter irgendwann damit betrogen wird