- Ein neues TTS-Sprachsynthesemodell, das dafür entwickelt wurde, natürliche Dialogsprache mit mehreren Sprechern über lange Zeiträume aus Text zu erzeugen
- Konzipiert, um die Grenzen bestehender Systeme bei Skalierbarkeit, Sprecherkonsistenz und natürlichen Sprecherwechseln zu überwinden
- Kann Sprachsynthese von bis zu 90 Minuten Länge mit bis zu 4 Sprechern gleichzeitig erzeugen und übertrifft damit Modelle, die auf 1–2 Personen begrenzt sind
- Der Kern ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Framerate von 7,5 Hz (Acoustic/Semantic), der lange Audiosequenzen effizient verarbeitet und dabei die Audioqualität erhält
- Nutzt einen Next-Token-Diffusion-Ansatz zur effizienten Modellierung kontinuierlicher Daten und führt dafür einen neuen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zu Encodec eine 80-fach höhere Kompressionsrate bietet
Einführung
- Aktuelle TTS-Technologien können zwar kurze Äußerungen eines einzelnen Sprechers in hoher Qualität synthetisieren, doch die Synthese langer Dialoge mit mehreren Sprechern bleibt weiterhin eine Herausforderung
- Bestehende Verfahren verketten Äußerungen oft nur einfach, was zu unnatürlichen Übergängen führt
- Natürliches Turn-Taking und kontextbewusste Generierung sind schwer umzusetzen
- Ziel: Unterstützung für die Synthese langer Dialogsprache mit mehreren Sprechern wie etwa bei Podcasts
- VibeVoice kombiniert dafür einen Sprach-Tokenizer mit ultraniedriger Framerate (7,5 Hz) mit einer LLM-basierten Diffusion-Architektur
- Dadurch ist eine stabile Synthese von Multi-Speaker-Audio mit einer Länge von bis zu 90 Minuten möglich
Technische Innovationen
- Kontinuierlicher Sprach-Tokenizer (7,5 Hz):
- Acoustic- und Semantic-Tokenizer werden parallel eingesetzt
- Sichert eine effiziente Verarbeitung langer Sequenzen bei gleichzeitig hoher Audiotreue
- Next-token diffusion framework:
- Das LLM versteht Textkontext und Gesprächsfluss
- Der Diffusion-Head erzeugt hochauflösende akustische Details
- Ergebnis: deutlich natürlichere und menschenähnlichere Sprachsynthese als bisher
Leistung
- Sprachsynthese mit einer Länge von bis zu 90 Minuten möglich
- Unterstützung für bis zu 4 Sprecher (und damit über die Grenze bisheriger Modelle mit 1–2 Sprechern hinaus)
- Liefert in unterschiedlichen Gesprächssituationen ausdrucksstarke und konsistente Sprache
Versuchsergebnisse
Synthese langer Dialoge (Podcast)
- Bewertet mit einem einstündigen Dialogdatensatz
- Gemessen wurden WER (Word Error Rate), SIM (Sprecherähnlichkeit) und subjektive Bewertungen (MOS)
- VIBEVOICE-7B erzielte mit Realism 3.71, Richness 3.81, Preference 3.75 die besten Werte
- War aktuellen Modellen wie Gemini 2.5 Pro und ElevenLabs v3 überlegen
Fazit und Grenzen
- VibeVoice ist ein TTS-Framework der nächsten Generation, das natürliche Dialogsynthese mit bis zu 90 Minuten und 4 Sprechern unterstützt
- In subjektiver wie objektiver Qualität besser als bisherige Open-Source- und kommerzielle Modelle
- Einschränkungen:
- Für andere Sprachen als Englisch und Chinesisch sind unerwartete Ergebnisse möglich
- Nichtsprachliches Audio (Hintergrundgeräusche, Musik) wird nicht unterstützt
- Gleichzeitiges Sprechen (Overlapping Speech) wird nicht unterstützt
- Es besteht das Risiko des Missbrauchs für Deepfakes und Desinformation
- Daher derzeit nur für Forschung und Entwicklung, eine kommerzielle Nutzung wird nicht empfohlen
Noch keine Kommentare.