5 Punkte von GN⁺ 2025-09-04 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein neues TTS-Sprachsynthesemodell, das dafür entwickelt wurde, natürliche Dialogsprache mit mehreren Sprechern über lange Zeiträume aus Text zu erzeugen
  • Konzipiert, um die Grenzen bestehender Systeme bei Skalierbarkeit, Sprecherkonsistenz und natürlichen Sprecherwechseln zu überwinden
  • Kann Sprachsynthese von bis zu 90 Minuten Länge mit bis zu 4 Sprechern gleichzeitig erzeugen und übertrifft damit Modelle, die auf 1–2 Personen begrenzt sind
  • Der Kern ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Framerate von 7,5 Hz (Acoustic/Semantic), der lange Audiosequenzen effizient verarbeitet und dabei die Audioqualität erhält
  • Nutzt einen Next-Token-Diffusion-Ansatz zur effizienten Modellierung kontinuierlicher Daten und führt dafür einen neuen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zu Encodec eine 80-fach höhere Kompressionsrate bietet

Einführung

  • Aktuelle TTS-Technologien können zwar kurze Äußerungen eines einzelnen Sprechers in hoher Qualität synthetisieren, doch die Synthese langer Dialoge mit mehreren Sprechern bleibt weiterhin eine Herausforderung
    • Bestehende Verfahren verketten Äußerungen oft nur einfach, was zu unnatürlichen Übergängen führt
    • Natürliches Turn-Taking und kontextbewusste Generierung sind schwer umzusetzen
  • Ziel: Unterstützung für die Synthese langer Dialogsprache mit mehreren Sprechern wie etwa bei Podcasts
  • VibeVoice kombiniert dafür einen Sprach-Tokenizer mit ultraniedriger Framerate (7,5 Hz) mit einer LLM-basierten Diffusion-Architektur
  • Dadurch ist eine stabile Synthese von Multi-Speaker-Audio mit einer Länge von bis zu 90 Minuten möglich

Technische Innovationen

  • Kontinuierlicher Sprach-Tokenizer (7,5 Hz):
    • Acoustic- und Semantic-Tokenizer werden parallel eingesetzt
    • Sichert eine effiziente Verarbeitung langer Sequenzen bei gleichzeitig hoher Audiotreue
  • Next-token diffusion framework:
    • Das LLM versteht Textkontext und Gesprächsfluss
    • Der Diffusion-Head erzeugt hochauflösende akustische Details
  • Ergebnis: deutlich natürlichere und menschenähnlichere Sprachsynthese als bisher

Leistung

  • Sprachsynthese mit einer Länge von bis zu 90 Minuten möglich
  • Unterstützung für bis zu 4 Sprecher (und damit über die Grenze bisheriger Modelle mit 1–2 Sprechern hinaus)
  • Liefert in unterschiedlichen Gesprächssituationen ausdrucksstarke und konsistente Sprache

Versuchsergebnisse

Synthese langer Dialoge (Podcast)

  • Bewertet mit einem einstündigen Dialogdatensatz
  • Gemessen wurden WER (Word Error Rate), SIM (Sprecherähnlichkeit) und subjektive Bewertungen (MOS)
  • VIBEVOICE-7B erzielte mit Realism 3.71, Richness 3.81, Preference 3.75 die besten Werte
  • War aktuellen Modellen wie Gemini 2.5 Pro und ElevenLabs v3 überlegen

Fazit und Grenzen

  • VibeVoice ist ein TTS-Framework der nächsten Generation, das natürliche Dialogsynthese mit bis zu 90 Minuten und 4 Sprechern unterstützt
  • In subjektiver wie objektiver Qualität besser als bisherige Open-Source- und kommerzielle Modelle
  • Einschränkungen:
    • Für andere Sprachen als Englisch und Chinesisch sind unerwartete Ergebnisse möglich
    • Nichtsprachliches Audio (Hintergrundgeräusche, Musik) wird nicht unterstützt
    • Gleichzeitiges Sprechen (Overlapping Speech) wird nicht unterstützt
    • Es besteht das Risiko des Missbrauchs für Deepfakes und Desinformation
  • Daher derzeit nur für Forschung und Entwicklung, eine kommerzielle Nutzung wird nicht empfohlen

Noch keine Kommentare.

Noch keine Kommentare.