26 Punkte von xguru 1 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Eine von Microsoft veröffentlichte Open-Source-Sprach-KI-Modellfamilie, die sowohl TTS (Text→Sprache) als auch ASR (Sprache→Text) umfasst
  • ASR ist ähnlich wie OpenAI Whisper, verfügt jedoch über eine direkt im Modell integrierte Sprechertrennung (speaker diarization)
  • Die zentrale Innovation ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Frame-Rate von 7,5 Hz, der die Recheneffizienz bei langen Sequenzen stark verbessert und dabei die Audioqualität erhält
  • Verwendet das next-token diffusion-Framework – das LLM versteht den Textkontext, und der diffusion head erzeugt hochwertige akustische Details
  • VibeVoice-ASR (7B): verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und gibt Sprecher (Who), Zeitstempel (When) und Inhalt (What) strukturiert aus
    • Benutzerdefinierte Hotwords verbessern die Erkennungsgenauigkeit für domänenspezifische Begriffe
    • Mehrsprachiges Modell mit nativer Unterstützung für über 50 Sprachen
    • Ab März 2026 in Hugging Face Transformers integriert
    • Unterstützung für vLLM-Inferenz für schnellere Inferenz sowie Veröffentlichung des Fine-Tuning-Codes
  • VibeVoice-TTS (1.5B): erzeugt bis zu 90 Minuten dialogorientierte Sprache in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher gleichzeitig
    • Erzeugt ausdrucksstarke, natürliche Sprache, die emotionale Nuancen und Gesprächsdynamik erfasst, und unterstützt mehrere Sprachen
    • Wurde am 25. August 2025 veröffentlicht; nachdem jedoch Fälle einer Nutzung entgegen der beabsichtigten Verwendung entdeckt wurden, wurde der TTS-Code am 5. September 2025 aus dem Repository entfernt
  • VibeVoice-Realtime (0.5B): Echtzeit-TTS für bis zu 10 Minuten, mit erster Sprachausgabe nach etwa 300 Millisekunden
    • Leichtgewichtiges Echtzeit-Text-zu-Sprache-Modell mit 0,5B Parametern, deployment-freundlich
    • Unterstützt Streaming-Texteingaben
    • Veröffentlicht am 3. Dezember 2025; später wurden am 16. Dezember experimentell mehrsprachige Stimmen in 9 Sprachen (DE, FR, IT, JP, KR, NL, PL, PT, ES) sowie 11 englische Stil-Stimmen hinzugefügt
    • Unterstützung für Apple Silicon (MPS) wurde zur Gradio-ASR-Demo hinzugefügt und verbessert die Nutzbarkeit auf dem Mac
  • Basierend auf dem Basismodell (Qwen2.5 1.5B) können Verzerrungen und Fehler übernommen werden; Vorsicht vor möglichem Missbrauch für Deepfakes ist erforderlich
  • MIT-Lizenz

1 Kommentare

 
xguru 1 일 전

VibeVoice – Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation
Bei GeekNews wurde es anfangs direkt veröffentlicht, aber wegen eines Problems wurde der VibeVoice-TTS-Code offenbar entfernt.
Für TTS scheint derzeit nur noch VibeVoice-Realtime verfügbar zu sein.
In den letzten Tagen sieht man VibeVoice-ASR offenbar wieder überall, weil es erneut an Popularität gewinnt.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison hat es getestet; auf dem Mac lässt es sich mit uv und mlx-audio per Einzeiler ausführen,
und eine Stunde Audio wurde auf einem MacBook Pro mit 128 GB M5 Max in etwa 8 Minuten 45 Sekunden verarbeitet.
Man kann es wohl als „Whisper mit guter Sprechertrennung“ sehen.