31 Punkte von GN⁺ 2026-01-23 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Qwen3-TTS ist eine mehrsprachige Sprachgenerierungs-Modellreihe, die Stimmklonen, Voice Design, die Erzeugung extrem hochwertiger menschenähnlicher Stimmen und natürlichsprachliche Steuerung unterstützt
  • Unterstützt 10 Hauptsprachen und verschiedene Dialekte wie Chinesisch, Englisch, Japanisch und Koreanisch und ist in zwei Modellgrößen verfügbar: 1.7B und 0.6B
  • Über den eigens entwickelten Qwen3-TTS-Tokenizer-12Hz-Encoder werden Sprachsignale effizient komprimiert, während nichtsprachliche Informationen und die akustische Umgebung vollständig erhalten bleiben
  • Mit einer Dual-Track-Streaming-Architektur wird nach Eingabe eines einzelnen Zeichens sofort das erste Audiopaket ausgegeben, wodurch eine Echtzeit-Syntheseleistung mit 97 ms Latenz erreicht wird
  • Durch die Open-Source-Veröffentlichung können Entwickler und Unternehmen die hochwertige Sprachgenerierungstechnologie direkt nutzen

Überblick über Qwen3-TTS

  • Qwen3-TTS ist eine von Qwen entwickelte leistungsstarke Sprachgenerierungs-Modellreihe, die Voice-Design-, Klon-, Generierungs- und Steuerungsfunktionen integriert bereitstellt
    • Klangfarbe, Emotion und Intonation lassen sich per natürlichsprachlichem Befehl steuern
    • Zugriff über die Qwen API und GitHub
  • Basierend auf dem Multi-Codebook-Encoder Qwen3-TTS-Tokenizer-12Hz werden schnelle Sprachrekonstruktion mit hoher Wiedergabetreue und effiziente Komprimierung umgesetzt
  • Dual-Track-Bidirektional-Streaming unterstützt Sprachausgabe in Echtzeit auf Zeichenebene

Modellaufbau

  • Das Gesamtmodell ist in zwei Größen verfügbar: 1.7B und 0.6B
    • 1.7B: bietet die höchste Leistung und präzise Steuerungsfunktionen
    • 0.6B: ausgewogenes Verhältnis zwischen Leistung und Effizienz
  • Beide Modelle unterstützen Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch und Italienisch
  • Mit 3 Sekunden Spracheingabe ist schnelles Stimmklonen möglich; auch für Fine-Tuning (FT) nutzbar

Zentrale technische Merkmale

  • Hohe Ausdrucksstärke der Sprachgenerierung
    • Qwen3-TTS-Tokenizer-12Hz modelliert und komprimiert die hochdimensionalen semantischen Eigenschaften akustischer Signale
    • Nichtsprachliche Informationen und Umgebungsgeräusche bleiben erhalten; die leichte non-DiT-Struktur unterstützt schnelle Rekonstruktion
  • End-to-End-Multi-Codebook-Struktur
    • Beseitigt Informationsengpässe und Fehlerakkumulation des bisherigen LM+DiT-Ansatzes
    • Verbessert Modellgeneralität, Generierungseffizienz und Leistungsgrenzen
  • Streaming-Synthese mit extrem niedriger Latenz
    • Dual-Track-Hybridstruktur unterstützt gleichzeitig Streaming und Non-Streaming
    • Erstes Audio nach Eingabe eines einzelnen Zeichens, 97 ms Latenz erreicht
  • Intelligentes Textverständnis und Sprachsteuerung
    • Mehrdimensionale Eigenschaften wie Klangfarbe, Emotion und Prosodie lassen sich per natürlichsprachlichem Befehl steuern
    • Passt Tonfall und Rhythmus automatisch an die Textbedeutung an

Bewertung der Modellleistung

  • Voice Design: Im Benchmark InstructTTS-Eval werden höhere Befolgung von Anweisungen und größere Ausdrucksstärke als bei MiniMax-Voice-Design erreicht
  • Sprachsteuerung: Bei mehrsprachiger Generalisierung mit einem einzelnen Sprecher wurden WER 2.34 % und ein Stilsteuerungswert von 75.4 % erzielt
    • Auch bei 10 Minuten kontinuierlicher Synthese bleiben WER-Werte von 2.36 % für Chinesisch und 2.81 % für Englisch erhalten
  • Stimmklonen: In Seed-tts-eval stabiler als MiniMax und SeedTTS
    • Durchschnittlich über 10 Sprachen WER 1.835 %, Sprechersimilarität 0.789, bessere Leistung als CosyVoice3

Leistung des Tokenizers

  • Erreicht SOTA auf dem LibriSpeech test-clean-Datensatz
    • PESQ: Wideband 3.21, Narrowband 3.68
    • STOI: 0.96, UTMOS: 4.16
    • Mit einer Sprechersimilarität von 0.95 wird Sprecherinformation nahezu verlustfrei erhalten

Voice Design und Beispiele

  • Auf Basis natürlichsprachlicher Beschreibungen lassen sich benutzerdefinierte Klangfarben erzeugen
    • Feine Steuerung von Eigenschaften wie Geschlecht, Alter, Emotion und Intonation
    • Beispiele: befehlender männlicher Stimmklang, emotionale weibliche Stimme, altersabhängige Klangfarben
  • Mit der Funktion Timbre Reuse können erzeugte Klangfarben gespeichert und wiederverwendet werden
    • Nutzbar für Mehrsprecher-Dialoge oder lange Narrationen

CustomVoice und Klangfarbensteuerung

  • Auch nach sprecherspezifischem Fine-Tuning bleiben Zielklangfarbe und mehrsprachige Äußerungen erhalten
  • Unterstützt sowohl die Steuerung einzelner als auch mehrerer Eigenschaften
    • Zum Beispiel: Traurigkeit, Wut, Flüstern, langsame Sprechweise und andere fein abgestufte Emotionen
  • Es werden 9 öffentliche Klangfarbensets bereitgestellt
    • Einschließlich Chinesisch, Englisch, Japanisch, Koreanisch und Dialekten
    • Beispiele: Serena, Uncle Fu, Vivian, Ryan, Sohee usw.

Voice Clone und mehrsprachiges Klonen

  • Mit 3 Sekunden Spracheingabe wird schnelles Stimmklonen durchgeführt
    • Neben Klonen auf Chinesisch und Englisch wird auch sprachübergreifendes Klonen unterstützt
    • Zum Beispiel sind mehrsprachige Äußerungen auf Japanisch, Koreanisch usw. möglich
  • Robustheit gegenüber Textrauschen ist gegeben
    • Auch Sätze mit komplexen Symbolen, Pinyin und Sonderzeichen werden korrekt ausgesprochen

Audiorekonstruktion auf Tokenizer-Basis

  • Vielfältige akustische Elemente wie Dialekte, Gesang, nichtsprachliche Laute und Hintergrundgeräusche können rekonstruiert werden
  • Die Rekonstruktionsqualität mit hoher Wiedergabetreue gegenüber dem Original wurde nachgewiesen

Noch keine Kommentare.

Noch keine Kommentare.