- Qwen3-TTS ist eine mehrsprachige Sprachgenerierungs-Modellreihe, die Stimmklonen, Voice Design, die Erzeugung extrem hochwertiger menschenähnlicher Stimmen und natürlichsprachliche Steuerung unterstützt
- Unterstützt 10 Hauptsprachen und verschiedene Dialekte wie Chinesisch, Englisch, Japanisch und Koreanisch und ist in zwei Modellgrößen verfügbar: 1.7B und 0.6B
- Über den eigens entwickelten Qwen3-TTS-Tokenizer-12Hz-Encoder werden Sprachsignale effizient komprimiert, während nichtsprachliche Informationen und die akustische Umgebung vollständig erhalten bleiben
- Mit einer Dual-Track-Streaming-Architektur wird nach Eingabe eines einzelnen Zeichens sofort das erste Audiopaket ausgegeben, wodurch eine Echtzeit-Syntheseleistung mit 97 ms Latenz erreicht wird
- Durch die Open-Source-Veröffentlichung können Entwickler und Unternehmen die hochwertige Sprachgenerierungstechnologie direkt nutzen
Überblick über Qwen3-TTS
- Qwen3-TTS ist eine von Qwen entwickelte leistungsstarke Sprachgenerierungs-Modellreihe, die Voice-Design-, Klon-, Generierungs- und Steuerungsfunktionen integriert bereitstellt
- Klangfarbe, Emotion und Intonation lassen sich per natürlichsprachlichem Befehl steuern
- Zugriff über die Qwen API und GitHub
- Basierend auf dem Multi-Codebook-Encoder Qwen3-TTS-Tokenizer-12Hz werden schnelle Sprachrekonstruktion mit hoher Wiedergabetreue und effiziente Komprimierung umgesetzt
- Dual-Track-Bidirektional-Streaming unterstützt Sprachausgabe in Echtzeit auf Zeichenebene
Modellaufbau
- Das Gesamtmodell ist in zwei Größen verfügbar: 1.7B und 0.6B
- 1.7B: bietet die höchste Leistung und präzise Steuerungsfunktionen
- 0.6B: ausgewogenes Verhältnis zwischen Leistung und Effizienz
- Beide Modelle unterstützen Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch und Italienisch
- Mit 3 Sekunden Spracheingabe ist schnelles Stimmklonen möglich; auch für Fine-Tuning (FT) nutzbar
Zentrale technische Merkmale
- Hohe Ausdrucksstärke der Sprachgenerierung
- Qwen3-TTS-Tokenizer-12Hz modelliert und komprimiert die hochdimensionalen semantischen Eigenschaften akustischer Signale
- Nichtsprachliche Informationen und Umgebungsgeräusche bleiben erhalten; die leichte non-DiT-Struktur unterstützt schnelle Rekonstruktion
- End-to-End-Multi-Codebook-Struktur
- Beseitigt Informationsengpässe und Fehlerakkumulation des bisherigen LM+DiT-Ansatzes
- Verbessert Modellgeneralität, Generierungseffizienz und Leistungsgrenzen
- Streaming-Synthese mit extrem niedriger Latenz
- Dual-Track-Hybridstruktur unterstützt gleichzeitig Streaming und Non-Streaming
- Erstes Audio nach Eingabe eines einzelnen Zeichens, 97 ms Latenz erreicht
- Intelligentes Textverständnis und Sprachsteuerung
- Mehrdimensionale Eigenschaften wie Klangfarbe, Emotion und Prosodie lassen sich per natürlichsprachlichem Befehl steuern
- Passt Tonfall und Rhythmus automatisch an die Textbedeutung an
Bewertung der Modellleistung
- Voice Design: Im Benchmark InstructTTS-Eval werden höhere Befolgung von Anweisungen und größere Ausdrucksstärke als bei MiniMax-Voice-Design erreicht
- Sprachsteuerung: Bei mehrsprachiger Generalisierung mit einem einzelnen Sprecher wurden WER 2.34 % und ein Stilsteuerungswert von 75.4 % erzielt
- Auch bei 10 Minuten kontinuierlicher Synthese bleiben WER-Werte von 2.36 % für Chinesisch und 2.81 % für Englisch erhalten
- Stimmklonen: In Seed-tts-eval stabiler als MiniMax und SeedTTS
- Durchschnittlich über 10 Sprachen WER 1.835 %, Sprechersimilarität 0.789, bessere Leistung als CosyVoice3
Leistung des Tokenizers
- Erreicht SOTA auf dem LibriSpeech test-clean-Datensatz
- PESQ: Wideband 3.21, Narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- Mit einer Sprechersimilarität von 0.95 wird Sprecherinformation nahezu verlustfrei erhalten
Voice Design und Beispiele
- Auf Basis natürlichsprachlicher Beschreibungen lassen sich benutzerdefinierte Klangfarben erzeugen
- Feine Steuerung von Eigenschaften wie Geschlecht, Alter, Emotion und Intonation
- Beispiele: befehlender männlicher Stimmklang, emotionale weibliche Stimme, altersabhängige Klangfarben
- Mit der Funktion Timbre Reuse können erzeugte Klangfarben gespeichert und wiederverwendet werden
- Nutzbar für Mehrsprecher-Dialoge oder lange Narrationen
CustomVoice und Klangfarbensteuerung
- Auch nach sprecherspezifischem Fine-Tuning bleiben Zielklangfarbe und mehrsprachige Äußerungen erhalten
- Unterstützt sowohl die Steuerung einzelner als auch mehrerer Eigenschaften
- Zum Beispiel: Traurigkeit, Wut, Flüstern, langsame Sprechweise und andere fein abgestufte Emotionen
- Es werden 9 öffentliche Klangfarbensets bereitgestellt
- Einschließlich Chinesisch, Englisch, Japanisch, Koreanisch und Dialekten
- Beispiele: Serena, Uncle Fu, Vivian, Ryan, Sohee usw.
Voice Clone und mehrsprachiges Klonen
- Mit 3 Sekunden Spracheingabe wird schnelles Stimmklonen durchgeführt
- Neben Klonen auf Chinesisch und Englisch wird auch sprachübergreifendes Klonen unterstützt
- Zum Beispiel sind mehrsprachige Äußerungen auf Japanisch, Koreanisch usw. möglich
- Robustheit gegenüber Textrauschen ist gegeben
- Auch Sätze mit komplexen Symbolen, Pinyin und Sonderzeichen werden korrekt ausgesprochen
Audiorekonstruktion auf Tokenizer-Basis
- Vielfältige akustische Elemente wie Dialekte, Gesang, nichtsprachliche Laute und Hintergrundgeräusche können rekonstruiert werden
- Die Rekonstruktionsqualität mit hoher Wiedergabetreue gegenüber dem Original wurde nachgewiesen
Noch keine Kommentare.