VibeVoice – Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation
(microsoft.github.io)- Ein neues TTS-Sprachsynthesemodell, das dafür entwickelt wurde, natürliche Dialogsprache mit mehreren Sprechern über lange Zeiträume aus Text zu erzeugen
- Konzipiert, um die Grenzen bestehender Systeme bei Skalierbarkeit, Sprecherkonsistenz und natürlichen Sprecherwechseln zu überwinden
- Kann Sprachsynthese von bis zu 90 Minuten Länge mit bis zu 4 Sprechern gleichzeitig erzeugen und übertrifft damit Modelle, die auf 1–2 Personen begrenzt sind
- Der Kern ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Framerate von 7,5 Hz (Acoustic/Semantic), der lange Audiosequenzen effizient verarbeitet und dabei die Audioqualität erhält
- Nutzt einen Next-Token-Diffusion-Ansatz zur effizienten Modellierung kontinuierlicher Daten und führt dafür einen neuen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zu Encodec eine 80-fach höhere Kompressionsrate bietet
Einführung
- Aktuelle TTS-Technologien können zwar kurze Äußerungen eines einzelnen Sprechers in hoher Qualität synthetisieren, doch die Synthese langer Dialoge mit mehreren Sprechern bleibt weiterhin eine Herausforderung
- Bestehende Verfahren verketten Äußerungen oft nur einfach, was zu unnatürlichen Übergängen führt
- Natürliches Turn-Taking und kontextbewusste Generierung sind schwer umzusetzen
- Ziel: Unterstützung für die Synthese langer Dialogsprache mit mehreren Sprechern wie etwa bei Podcasts
- VibeVoice kombiniert dafür einen Sprach-Tokenizer mit ultraniedriger Framerate (7,5 Hz) mit einer LLM-basierten Diffusion-Architektur
- Dadurch ist eine stabile Synthese von Multi-Speaker-Audio mit einer Länge von bis zu 90 Minuten möglich
Technische Innovationen
- Kontinuierlicher Sprach-Tokenizer (7,5 Hz):
- Acoustic- und Semantic-Tokenizer werden parallel eingesetzt
- Sichert eine effiziente Verarbeitung langer Sequenzen bei gleichzeitig hoher Audiotreue
- Next-token diffusion framework:
- Das LLM versteht Textkontext und Gesprächsfluss
- Der Diffusion-Head erzeugt hochauflösende akustische Details
- Ergebnis: deutlich natürlichere und menschenähnlichere Sprachsynthese als bisher
Leistung
- Sprachsynthese mit einer Länge von bis zu 90 Minuten möglich
- Unterstützung für bis zu 4 Sprecher (und damit über die Grenze bisheriger Modelle mit 1–2 Sprechern hinaus)
- Liefert in unterschiedlichen Gesprächssituationen ausdrucksstarke und konsistente Sprache
Versuchsergebnisse
Synthese langer Dialoge (Podcast)
- Bewertet mit einem einstündigen Dialogdatensatz
- Gemessen wurden WER (Word Error Rate), SIM (Sprecherähnlichkeit) und subjektive Bewertungen (MOS)
- VIBEVOICE-7B erzielte mit Realism 3.71, Richness 3.81, Preference 3.75 die besten Werte
- War aktuellen Modellen wie Gemini 2.5 Pro und ElevenLabs v3 überlegen
Fazit und Grenzen
- VibeVoice ist ein TTS-Framework der nächsten Generation, das natürliche Dialogsynthese mit bis zu 90 Minuten und 4 Sprechern unterstützt
- In subjektiver wie objektiver Qualität besser als bisherige Open-Source- und kommerzielle Modelle
- Einschränkungen:
- Für andere Sprachen als Englisch und Chinesisch sind unerwartete Ergebnisse möglich
- Nichtsprachliches Audio (Hintergrundgeräusche, Musik) wird nicht unterstützt
- Gleichzeitiges Sprechen (Overlapping Speech) wird nicht unterstützt
- Es besteht das Risiko des Missbrauchs für Deepfakes und Desinformation
- Daher derzeit nur für Forschung und Entwicklung, eine kommerzielle Nutzung wird nicht empfohlen
1 Kommentare
Hacker-News-Kommentare
voices-Ordner legt, funktioniert es wirklich guttorch.float32dauerte es 832 Sekunden, um 66 Sekunden Audio zu erzeugen. Als ich auftorch.bfloat16umgestellt habe, traten merkwürdige Störgeräusche im Audio auf. Das bislang brauchbarste TTS-Modell in einer Situation mit zu wenig GPU war für mich Kokoro. Außerdem gibt es, wie jemand in diesem Thread bereits erwähnt hat, derzeit keine Funktion, mit der man durch zusätzliche Anmerkungen im Text die TTS-Ausgabe fein steuern kann. Ich denke, ein möglicher Weg zur Weiterentwicklung wäre, per Zwischenschritt Anmerkungen zum Text zu erzeugen und diese dann in das TTS einzuspeisen. So könnten Nutzer das Ergebnis feiner kontrollieren