Qwen3-TTS-Familie als Open Source veröffentlicht: Funktionen für Voice Design, Klonen und Generierung

(qwen.ai)

31 Punkte von GN⁺ 2026-01-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Qwen3-TTS ist eine mehrsprachige Sprachgenerierungs-Modellreihe, die Stimmklonen, Voice Design, die Erzeugung extrem hochwertiger menschenähnlicher Stimmen und natürlichsprachliche Steuerung unterstützt
Unterstützt 10 Hauptsprachen und verschiedene Dialekte wie Chinesisch, Englisch, Japanisch und Koreanisch und ist in zwei Modellgrößen verfügbar: 1.7B und 0.6B
Über den eigens entwickelten Qwen3-TTS-Tokenizer-12Hz-Encoder werden Sprachsignale effizient komprimiert, während nichtsprachliche Informationen und die akustische Umgebung vollständig erhalten bleiben
Mit einer Dual-Track-Streaming-Architektur wird nach Eingabe eines einzelnen Zeichens sofort das erste Audiopaket ausgegeben, wodurch eine Echtzeit-Syntheseleistung mit 97 ms Latenz erreicht wird
Durch die Open-Source-Veröffentlichung können Entwickler und Unternehmen die hochwertige Sprachgenerierungstechnologie direkt nutzen

Überblick über Qwen3-TTS

Qwen3-TTS ist eine von Qwen entwickelte leistungsstarke Sprachgenerierungs-Modellreihe, die Voice-Design-, Klon-, Generierungs- und Steuerungsfunktionen integriert bereitstellt
- Klangfarbe, Emotion und Intonation lassen sich per natürlichsprachlichem Befehl steuern
- Zugriff über die Qwen API und GitHub
Basierend auf dem Multi-Codebook-Encoder Qwen3-TTS-Tokenizer-12Hz werden schnelle Sprachrekonstruktion mit hoher Wiedergabetreue und effiziente Komprimierung umgesetzt
Dual-Track-Bidirektional-Streaming unterstützt Sprachausgabe in Echtzeit auf Zeichenebene

Das Gesamtmodell ist in zwei Größen verfügbar: 1.7B und 0.6B
- 1.7B: bietet die höchste Leistung und präzise Steuerungsfunktionen
- 0.6B: ausgewogenes Verhältnis zwischen Leistung und Effizienz
Beide Modelle unterstützen Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch und Italienisch
Mit 3 Sekunden Spracheingabe ist schnelles Stimmklonen möglich; auch für Fine-Tuning (FT) nutzbar

Hohe Ausdrucksstärke der Sprachgenerierung
- Qwen3-TTS-Tokenizer-12Hz modelliert und komprimiert die hochdimensionalen semantischen Eigenschaften akustischer Signale
- Nichtsprachliche Informationen und Umgebungsgeräusche bleiben erhalten; die leichte non-DiT-Struktur unterstützt schnelle Rekonstruktion
End-to-End-Multi-Codebook-Struktur
- Beseitigt Informationsengpässe und Fehlerakkumulation des bisherigen LM+DiT-Ansatzes
- Verbessert Modellgeneralität, Generierungseffizienz und Leistungsgrenzen
Streaming-Synthese mit extrem niedriger Latenz
- Dual-Track-Hybridstruktur unterstützt gleichzeitig Streaming und Non-Streaming
- Erstes Audio nach Eingabe eines einzelnen Zeichens, 97 ms Latenz erreicht
Intelligentes Textverständnis und Sprachsteuerung
- Mehrdimensionale Eigenschaften wie Klangfarbe, Emotion und Prosodie lassen sich per natürlichsprachlichem Befehl steuern
- Passt Tonfall und Rhythmus automatisch an die Textbedeutung an

Voice Design: Im Benchmark InstructTTS-Eval werden höhere Befolgung von Anweisungen und größere Ausdrucksstärke als bei MiniMax-Voice-Design erreicht
Sprachsteuerung: Bei mehrsprachiger Generalisierung mit einem einzelnen Sprecher wurden WER 2.34 % und ein Stilsteuerungswert von 75.4 % erzielt
- Auch bei 10 Minuten kontinuierlicher Synthese bleiben WER-Werte von 2.36 % für Chinesisch und 2.81 % für Englisch erhalten
Stimmklonen: In Seed-tts-eval stabiler als MiniMax und SeedTTS
- Durchschnittlich über 10 Sprachen WER 1.835 %, Sprechersimilarität 0.789, bessere Leistung als CosyVoice3

Erreicht SOTA auf dem LibriSpeech test-clean-Datensatz
- PESQ: Wideband 3.21, Narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- Mit einer Sprechersimilarität von 0.95 wird Sprecherinformation nahezu verlustfrei erhalten

Auf Basis natürlichsprachlicher Beschreibungen lassen sich benutzerdefinierte Klangfarben erzeugen
- Feine Steuerung von Eigenschaften wie Geschlecht, Alter, Emotion und Intonation
- Beispiele: befehlender männlicher Stimmklang, emotionale weibliche Stimme, altersabhängige Klangfarben
Mit der Funktion Timbre Reuse können erzeugte Klangfarben gespeichert und wiederverwendet werden
- Nutzbar für Mehrsprecher-Dialoge oder lange Narrationen

Auch nach sprecherspezifischem Fine-Tuning bleiben Zielklangfarbe und mehrsprachige Äußerungen erhalten
Unterstützt sowohl die Steuerung einzelner als auch mehrerer Eigenschaften
- Zum Beispiel: Traurigkeit, Wut, Flüstern, langsame Sprechweise und andere fein abgestufte Emotionen
Es werden 9 öffentliche Klangfarbensets bereitgestellt
- Einschließlich Chinesisch, Englisch, Japanisch, Koreanisch und Dialekten
- Beispiele: Serena, Uncle Fu, Vivian, Ryan, Sohee usw.

Mit 3 Sekunden Spracheingabe wird schnelles Stimmklonen durchgeführt
- Neben Klonen auf Chinesisch und Englisch wird auch sprachübergreifendes Klonen unterstützt
- Zum Beispiel sind mehrsprachige Äußerungen auf Japanisch, Koreanisch usw. möglich
Robustheit gegenüber Textrauschen ist gegeben
- Auch Sätze mit komplexen Symbolen, Pinyin und Sonderzeichen werden korrekt ausgesprochen

Vielfältige akustische Elemente wie Dialekte, Gesang, nichtsprachliche Laute und Hintergrundgeräusche können rekonstruiert werden
Die Rekonstruktionsqualität mit hoher Wiedergabetreue gegenüber dem Original wurde nachgewiesen