VibeVoice – Open-Source-Sprach-KI-Modell der nächsten Generation
(github.com/microsoft)- Eine von Microsoft veröffentlichte Open-Source-Sprach-KI-Modellfamilie, die sowohl TTS (Text→Sprache) als auch ASR (Sprache→Text) umfasst
- ASR ist ähnlich wie OpenAI Whisper, verfügt jedoch über eine direkt im Modell integrierte Sprechertrennung (speaker diarization)
- Die zentrale Innovation ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Frame-Rate von 7,5 Hz, der die Recheneffizienz bei langen Sequenzen stark verbessert und dabei die Audioqualität erhält
- Verwendet das next-token diffusion-Framework – das LLM versteht den Textkontext, und der diffusion head erzeugt hochwertige akustische Details
- VibeVoice-ASR (7B): verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und gibt Sprecher (Who), Zeitstempel (When) und Inhalt (What) strukturiert aus
- Benutzerdefinierte Hotwords verbessern die Erkennungsgenauigkeit für domänenspezifische Begriffe
- Mehrsprachiges Modell mit nativer Unterstützung für über 50 Sprachen
- Ab März 2026 in Hugging Face Transformers integriert
- Unterstützung für vLLM-Inferenz für schnellere Inferenz sowie Veröffentlichung des Fine-Tuning-Codes
- VibeVoice-TTS (1.5B): erzeugt bis zu 90 Minuten dialogorientierte Sprache in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher gleichzeitig
- Erzeugt ausdrucksstarke, natürliche Sprache, die emotionale Nuancen und Gesprächsdynamik erfasst, und unterstützt mehrere Sprachen
- Wurde am 25. August 2025 veröffentlicht; nachdem jedoch Fälle einer Nutzung entgegen der beabsichtigten Verwendung entdeckt wurden, wurde der TTS-Code am 5. September 2025 aus dem Repository entfernt
- VibeVoice-Realtime (0.5B): Echtzeit-TTS für bis zu 10 Minuten, mit erster Sprachausgabe nach etwa 300 Millisekunden
- Leichtgewichtiges Echtzeit-Text-zu-Sprache-Modell mit 0,5B Parametern, deployment-freundlich
- Unterstützt Streaming-Texteingaben
- Veröffentlicht am 3. Dezember 2025; später wurden am 16. Dezember experimentell mehrsprachige Stimmen in 9 Sprachen (DE, FR, IT, JP, KR, NL, PL, PT, ES) sowie 11 englische Stil-Stimmen hinzugefügt
- Unterstützung für Apple Silicon (MPS) wurde zur Gradio-ASR-Demo hinzugefügt und verbessert die Nutzbarkeit auf dem Mac
- Basierend auf dem Basismodell (Qwen2.5 1.5B) können Verzerrungen und Fehler übernommen werden; Vorsicht vor möglichem Missbrauch für Deepfakes ist erforderlich
- MIT-Lizenz
1 Kommentare
VibeVoice – Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation
Bei GeekNews wurde es anfangs direkt veröffentlicht, aber wegen eines Problems wurde der VibeVoice-TTS-Code offenbar entfernt.
Für TTS scheint derzeit nur noch VibeVoice-Realtime verfügbar zu sein.
In den letzten Tagen sieht man VibeVoice-ASR offenbar wieder überall, weil es erneut an Popularität gewinnt.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison hat es getestet; auf dem Mac lässt es sich mit
uvund mlx-audio per Einzeiler ausführen,und eine Stunde Audio wurde auf einem MacBook Pro mit 128 GB M5 Max in etwa 8 Minuten 45 Sekunden verarbeitet.
Man kann es wohl als „Whisper mit guter Sprechertrennung“ sehen.