VibeVoice – Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation

(microsoft.github.io)

5 Punkte von GN⁺ 2025-09-04 | 1 Kommentare | Auf WhatsApp teilen

Ein neues TTS-Sprachsynthesemodell, das dafür entwickelt wurde, natürliche Dialogsprache mit mehreren Sprechern über lange Zeiträume aus Text zu erzeugen
Konzipiert, um die Grenzen bestehender Systeme bei Skalierbarkeit, Sprecherkonsistenz und natürlichen Sprecherwechseln zu überwinden
Kann Sprachsynthese von bis zu 90 Minuten Länge mit bis zu 4 Sprechern gleichzeitig erzeugen und übertrifft damit Modelle, die auf 1–2 Personen begrenzt sind
Der Kern ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Framerate von 7,5 Hz (Acoustic/Semantic), der lange Audiosequenzen effizient verarbeitet und dabei die Audioqualität erhält
Nutzt einen Next-Token-Diffusion-Ansatz zur effizienten Modellierung kontinuierlicher Daten und führt dafür einen neuen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zu Encodec eine 80-fach höhere Kompressionsrate bietet

Einführung

Aktuelle TTS-Technologien können zwar kurze Äußerungen eines einzelnen Sprechers in hoher Qualität synthetisieren, doch die Synthese langer Dialoge mit mehreren Sprechern bleibt weiterhin eine Herausforderung
- Bestehende Verfahren verketten Äußerungen oft nur einfach, was zu unnatürlichen Übergängen führt
- Natürliches Turn-Taking und kontextbewusste Generierung sind schwer umzusetzen
Ziel: Unterstützung für die Synthese langer Dialogsprache mit mehreren Sprechern wie etwa bei Podcasts
VibeVoice kombiniert dafür einen Sprach-Tokenizer mit ultraniedriger Framerate (7,5 Hz) mit einer LLM-basierten Diffusion-Architektur
Dadurch ist eine stabile Synthese von Multi-Speaker-Audio mit einer Länge von bis zu 90 Minuten möglich

Technische Innovationen

Kontinuierlicher Sprach-Tokenizer (7,5 Hz):
- Acoustic- und Semantic-Tokenizer werden parallel eingesetzt
- Sichert eine effiziente Verarbeitung langer Sequenzen bei gleichzeitig hoher Audiotreue
Next-token diffusion framework:
- Das LLM versteht Textkontext und Gesprächsfluss
- Der Diffusion-Head erzeugt hochauflösende akustische Details
Ergebnis: deutlich natürlichere und menschenähnlichere Sprachsynthese als bisher

Leistung

Sprachsynthese mit einer Länge von bis zu 90 Minuten möglich
Unterstützung für bis zu 4 Sprecher (und damit über die Grenze bisheriger Modelle mit 1–2 Sprechern hinaus)
Liefert in unterschiedlichen Gesprächssituationen ausdrucksstarke und konsistente Sprache

Versuchsergebnisse

Synthese langer Dialoge (Podcast)

Bewertet mit einem einstündigen Dialogdatensatz
Gemessen wurden WER (Word Error Rate), SIM (Sprecherähnlichkeit) und subjektive Bewertungen (MOS)
VIBEVOICE-7B erzielte mit Realism 3.71, Richness 3.81, Preference 3.75 die besten Werte
War aktuellen Modellen wie Gemini 2.5 Pro und ElevenLabs v3 überlegen

Fazit und Grenzen

VibeVoice ist ein TTS-Framework der nächsten Generation, das natürliche Dialogsynthese mit bis zu 90 Minuten und 4 Sprechern unterstützt
In subjektiver wie objektiver Qualität besser als bisherige Open-Source- und kommerzielle Modelle
Einschränkungen:
- Für andere Sprachen als Englisch und Chinesisch sind unerwartete Ergebnisse möglich
- Nichtsprachliches Audio (Hintergrundgeräusche, Musik) wird nicht unterstützt
- Gleichzeitiges Sprechen (Overlapping Speech) wird nicht unterstützt
- Es besteht das Risiko des Missbrauchs für Deepfakes und Desinformation
Daher derzeit nur für Forschung und Entwicklung, eine kommerzielle Nutzung wird nicht empfohlen

1 Kommentare

GN⁺ 2025-09-04

Hacker-News-Kommentare

Nachdem ich in mehreren Kommentaren gelesen hatte, wie realistisch dieses Sprachmodell sein soll, habe ich die Seite voller Erwartungen besucht, aber beim tatsächlichen Anhören war mein Eindruck ganz anders. Die Klangqualität selbst war in Ordnung, aber in den meisten Sätzen wirkte die Intonation unnatürlich, und es klang eindeutig maschinell. Im Vergleich zu TTS von vor ein paar Jahren ist es ziemlich beeindruckend, aber verglichen mit heutigen KI-Stimmen fand ich es nicht besonders eindrucksvoll. Vor allem habe ich das Gefühl, dass selbst die KI-Stimmen, die man oft in YouTube Shorts hört, mindestens so gut sind wie die meisten Samples auf dieser Seite. Wirklich beeindruckend fand ich nur die englischen und chinesischen (vermutlich Mandarin-)Samples, bei denen zwischen den beiden Sprachen sehr natürlich gewechselt wurde. Allerdings bin ich mit Chinesisch nicht vertraut genug, um die Aussprache richtig zu beurteilen, und vielleicht war der Wechsel auch leichter, weil man chinesische Zeichen und das lateinische Alphabet klar unterscheiden kann. Wenn es zwei Sprachen mit demselben Schriftsystem gewesen wären, wäre es vielleicht nicht so natürlich gewesen. Zum Schluss: Das Gesangs-Sample war ziemlich schwer anzuhören, und ich frage mich wirklich, warum man so ein Sample überhaupt hinzugefügt hat
- Die Bemerkungen des Entwicklerteams zu Gesang und Hintergrundmusik wirken etwas merkwürdig. Es fühlt sich stark so an, als hätten sie bis zur Paper-Deadline keine Methode gefunden, um die Hintergrundmusik zu entfernen, und würden das nun einfach als „Feature“ darstellen. Es wirkt nicht so, als hätten sie das wirklich als Unterscheidungsmerkmal hinzugefügt
- Falls jemand ein besseres TTS-Modell als dieses kennt, würde ich mich über Empfehlungen freuen. Es gibt immer Leute, die Fortschritte übertreiben, und andere, die alles kleinreden, aber ich glaube nicht, dass eine der beiden Seiten den Fortschritt behindert. Von den Modellen, die ich bisher gehört habe, war dieses das beste, aber vielleicht gibt es noch etwas Besseres, das ich nicht kenne
- Das Modell ist ziemlich gut, aber unter den kostenlosen Modellen nicht das beste. Chatterbox klingt realistischer, deutlich weniger maschinell und hat natürlichere Intonation (wenn auch nicht perfekt)
- Ich finde, die Frauenstimmen klingen deutlich natürlicher und überzeugender als die Männerstimmen. Im Vergleich dazu sind die Männerstimmen kaum besser als TTS von vor zehn Jahren
- Die eigentliche Stärke dieses Modells ist Voice Cloning. Wenn man ein Sample der eigenen Stimme in den voices-Ordner legt, funktioniert es wirklich gut
Ich hoffe wirklich, dass Microsoft einen Open Source Coding Agent intern unbedingt Microsoft VibeCode nennen will. Oder sie nennen ihn „Lo“ und man kann ihn zusammen mit Phi verwenden. Dann könnte man mit „Lo Phi“ vibe coden. Infos zu Microsofts Sprachmodell Phi 4
- Wenn man sich Microsofts Marketing-Historie ansieht, wird es am Ende wohl entweder ein direkter Name wie "Microsoft Copilot Code Generator for VSCode" oder völlig aus dem Nichts etwas wie "Zunega"
- Geniale Idee
VibeVoice-Large ist das erste lokale TTS, das finnische Aussprache fast ohne Akzent wirklich natürlich unterstützt. Ich habe gestern selbst damit herumgespielt und war besonders davon beeindruckt, dass es sogar Voice Cloning und Emotionen kopieren kann
Technisch ist es ziemlich hochwertig, aber besonders bei den Männerstimmen hat man sofort den Eindruck, dass die Stimme von einer KI erzeugt wurde. Ich kenne mich mit Audio nicht gut genug aus, um den Grund dafür besser zu beschreiben
- Ich bin auch kein Audioingenieur, aber für mich klingen diese KI-Stimmen wie eine „Sägezahn“-Wellenform. Einfache Modelle oder schwächere Techniken sampeln wohl weniger, wodurch viele eine Art Audio-Pulsieren oder Vibrieren haben, was diesen stockenden maschinellen Klang erzeugt. Bei besseren Modellen verändert sich die Wellenform glatter. Referenz zu Wellenformen
- Für mich klingt die Klangfarbe irgendwie blockartig abgeschnitten, und wenn man den Ton visualisieren würde, hätte die Wellenform keine Rundungen, sondern etwas Spitzes und einen metallischen Kastenhall
- Nachdem ich es selbst angehört habe, konnte ich verstehen, was gemeint ist. Manche Stellen klingen, als würde die Stimme schwanken oder als wäre sie stark mp3-komprimiert
Die Männerstimmen klingen im Vergleich zu den Frauenstimmen viel künstlicher, fast schon roboterhaft. Dass die meisten offiziellen Samples mit Frauenstimmen beginnen, zeigt, dass auch das Entwicklerteam dieses Problem kennt
- Ich hatte einen ähnlichen Eindruck. Die Männerstimmen klingen definitiv künstlicher
Ich frage mich, ob es irgendwo ein aktuelles Ranking oder eine Liste populärer Open-Weight-TTS-Modelle gibt. Eigentlich interessiere ich mich mehr für STT (ASR), aber die Auswahl ist sehr klein
- Das sieht man in der huggingface-TTS-Modellliste. Modelle, die im Trending landen, sind in der Regel zumindest einen Versuch wert. Da die Bewertungskriterien sehr subjektiv sind, ist das Wichtigste, sie sich selbst anzuhören. Bei Modellen, die auf HF nicht im Trend liegen, ist die Wahrscheinlichkeit eher gering, dass sie besonders gut sind
- Zu den besten TTS zählen: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice und XTTS-2
- Im Hamburger-Menü auf leaderboard klicken, dann kommt die Ranking-Seite: TTS-AGI/TTS-Arena-V2
- Spitzenklasse
Für Nutzer mit schwacher GPU-Leistung ist dieses Modell schwer zu verwenden. Auf einer alten 1080-GPU lief es nicht richtig, und auf der CPU mit torch.float32 dauerte es 832 Sekunden, um 66 Sekunden Audio zu erzeugen. Als ich auf torch.bfloat16 umgestellt habe, traten merkwürdige Störgeräusche im Audio auf. Das bislang brauchbarste TTS-Modell in einer Situation mit zu wenig GPU war für mich Kokoro. Außerdem gibt es, wie jemand in diesem Thread bereits erwähnt hat, derzeit keine Funktion, mit der man durch zusätzliche Anmerkungen im Text die TTS-Ausgabe fein steuern kann. Ich denke, ein möglicher Weg zur Weiterentwicklung wäre, per Zwischenschritt Anmerkungen zum Text zu erzeugen und diese dann in das TTS einzuspeisen. So könnten Nutzer das Ergebnis feiner kontrollieren
- Ich halte das für sehr übertrieben. macOS unterstützt schon seit langer Zeit sofortiges und qualitativ ziemlich gutes TTS, ohne dass man solche schweren Modelle brauchte. Es gibt praktisch keine Latenz. Ich finde, dieser ganze „AI“-Hype ist wirklich überzogen
Wenn es Open Source sein soll, warum werden dann die Trainingsdaten nicht veröffentlicht?
- Bei den meisten gecrawlten Daten gibt es viele rechtliche Risiken wie Urheberrecht, Nutzungsbedingungen, Datenschutz usw., deshalb ist es für ein kommerzielles Unternehmen nicht klug, alles vollständig „offen“ zu machen
Der Sample-Dialog zu Spontaneous Emotion klingt, als würde das Entwicklerteam Emotionen mit einem LLM erzwingen wollen. Das Gesangs-Sample hätte man besser weggelassen. Für Gesang ist das Modell derzeit überhaupt nicht geeignet
- Durch dieses Lied habe ich es noch einmal gesucht und angehört. Es ist wirklich ein hervorragendes Stück, wenn es darum geht, Emotionen auszulösen. Bis Roboter singen können, ist es noch ein weiter Weg
Die derzeit zwei besten TTS-Modelle sind HiggsAudio und VibeVoice. Persönlich fand ich Higgs in Geschwindigkeit wie auch Klangqualität Vibe deutlich überlegen. Bei der Ausdrucksstärke bin ich mir nicht sicher, aber man sollte es auf keinen Fall verpassen und es unbedingt ausprobieren

VibeVoice – Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation

Einführung

Technische Innovationen

Leistung

Versuchsergebnisse

Synthese langer Dialoge (Podcast)

Fazit und Grenzen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare