- Von Microsoft veröffentlichte Open-Source-Sprach-KI-Modellfamilie, die sowohl TTS (Text→Sprache) als auch ASR (Sprache→Text) umfasst
- ASR ist OpenAI Whisper ähnlich, verfügt aber über eine integrierte Sprechertrennung (speaker diarization) direkt im Modell
- Die zentrale Innovation ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Framerate von 7,5 Hz, der die Recheneffizienz bei langen Sequenzen stark verbessert, ohne die Audioqualität zu beeinträchtigen
- Verwendet das Framework next-token diffusion – das LLM versteht den Textkontext, und der diffusion head erzeugt akustische Details in hoher Qualität
- VibeVoice-ASR (7B): verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und gibt Sprecher (Who), Zeitstempel (When) und Inhalt (What) strukturiert aus
- Benutzerdefinierte Hotwords verbessern die Erkennungsgenauigkeit für domänenspezifische Begriffe
- Mehrsprachiges Modell mit nativer Unterstützung für mehr als 50 Sprachen
- Ab März 2026 in Hugging Face Transformers integriert
- Unterstützung für vLLM-Inferenz für schnellere Inferenz sowie Veröffentlichung von Fine-Tuning-Code
- VibeVoice-TTS (1.5B): erzeugt bis zu 90 Minuten dialogorientierte Sprache in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher gleichzeitig
- Erzeugt ausdrucksstarke, natürliche Sprache, die emotionale Nuancen und Gesprächsdynamik erfasst, und unterstützt mehrere Sprachen
- Wurde am 25. August 2025 veröffentlicht; nachdem Fälle einer nicht beabsichtigten Nutzung festgestellt wurden, wurde der TTS-Code am 5. September 2025 aus dem Repository entfernt
- VibeVoice-Realtime (0.5B): Echtzeit-TTS für bis zu 10 Minuten mit erster Sprachausgabe nach etwa 300 Millisekunden
- Leichtgewichtiges Echtzeit-Text-zu-Sprache-Modell mit 0.5B Parametern, deployment-freundlich
- Unterstützt Streaming-Texteingaben
- Veröffentlicht am 3. Dezember 2025; später wurden am 16. Dezember experimentell mehrsprachige Stimmen in 9 Sprachen (DE, FR, IT, JP, KR, NL, PL, PT, ES) sowie 11 englische Stilstimmen hinzugefügt
- Unterstützung für Apple Silicon (MPS) wurde zur Gradio-ASR-Demo hinzugefügt und verbessert die Nutzbarkeit auf dem Mac
- Basierend auf dem Basismodell (Qwen2.5 1.5B) und kann daher Verzerrungen und Fehler übernehmen; Vorsicht vor möglichem Missbrauch für Deepfakes ist geboten
- MIT-Lizenz
1 Kommentare
VibeVoice - Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation
Bei GeekNews wurde es anfangs sofort veröffentlicht, aber wegen eines Problems wurde der VibeVoice-TTS-Code offenbar entfernt.
Für TTS scheint derzeit nur VibeVoice-Realtime nutzbar zu sein.
In den letzten Tagen scheint es wegen VibeVoice-ASR wieder an Popularität zu gewinnen, man sieht es überall.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison hat ASR getestet; auf dem Mac lässt es sich mit
uvund mlx-audio per Einzeiler ausführen, undeine Stunde Audio wurde auf einem 128GB M5 Max MacBook Pro in etwa 8 Minuten 45 Sekunden verarbeitet.
Man kann es wohl als
Whisper mit guter Sprechertrennungsehen.