VibeVoice – Open-Source-Sprach-KI-Modell

xguru · 2026-04-28T13:09:54+09:00

Von Microsoft veröffentlichte Open-Source-Sprach-KI-Modellfamilie, die sowohl TTS (Text→Sprache) als auch ASR (Sprache→Text) umfasst ASR ist OpenAI Whisper ähnlich, verfügt aber über eine integrierte Sprechertrennung (speaker diarization) direkt im Modell Die zentrale Innovation ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Framerate von 7,5 Hz, der die Recheneffizienz bei langen Sequenzen stark verbessert, ohne die Audioqualität zu beeinträchtigen Verwendet das Framework next-token diffusion – das LLM versteht den Textkontext, und der diffusion head erzeugt akustische Details in hoher Qualität VibeVoice-ASR (7B): verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und gibt Sprecher (Who), Zeitstempel (When) und Inhalt (What) strukturiert aus Benutzerdefinierte Hotwords verbessern die Erkennungsgenauigkeit für domänenspezifische Begriffe Mehrsprachiges Modell mit nativer Unterstützung für mehr als 50 Sprachen Ab März 2026 in Hugging Face Transformers integriert Unterstützung für vLLM-Inferenz für schnellere Inferenz sowie Veröffentlichung von Fine-Tuning-Code VibeVoice-TTS (1.5B): erzeugt bis zu 90 Minuten dialogorientierte Sprache in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher gleichzeitig Erzeugt ausdrucksstarke, natürliche Sprache, die emotionale Nuancen und Gesprächsdynamik erfasst, und unterstützt mehrere Sprachen Wurde am 25. August 2025 veröffentlicht; nachdem Fälle einer nicht beabsichtigten Nutzung festgestellt wurden, wurde der TTS-Code am 5. September 2025 aus dem Repository entfernt VibeVoice-Realtime (0.5B): Echtzeit-TTS für bis zu 10 Minuten mit erster Sprachausgabe nach etwa 300 Millisekunden Leichtgewichtiges Echtzeit-Text-zu-Sprache-Modell mit 0.5B Parametern, deployment-freundlich Unterstützt Streaming-Texteingaben Veröffentlicht am 3. Dezember 2025; später wurden am 16. Dezember experimentell mehrsprachige Stimmen in 9 Sprachen (DE, FR, IT, JP, KR, NL, PL, PT, ES) sowie 11 englische Stilstimmen hinzugefügt Unterstützung für Apple Silicon (MPS) wurde zur Gradio-ASR-Demo hinzugefügt und verbessert die Nutzbarkeit auf dem Mac Basierend auf dem Basismodell (Qwen2.5 1.5B) und kann daher Verzerrungen und Fehler übernehmen; Vorsicht vor möglichem Missbrauch für Deepfakes ist geboten MIT-Lizenz

Von Microsoft veröffentlichte Open-Source-Sprach-KI-Modellfamilie, die sowohl TTS (Text→Sprache) als auch ASR (Sprache→Text) umfasst
ASR ist OpenAI Whisper ähnlich, verfügt aber über eine integrierte Sprechertrennung (speaker diarization) direkt im Modell
Die zentrale Innovation ist ein kontinuierlicher Sprach-Tokenizer mit ultraniedriger Framerate von 7,5 Hz, der die Recheneffizienz bei langen Sequenzen stark verbessert, ohne die Audioqualität zu beeinträchtigen
Verwendet das Framework next-token diffusion – das LLM versteht den Textkontext, und der diffusion head erzeugt akustische Details in hoher Qualität
VibeVoice-ASR (7B): verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und gibt Sprecher (Who), Zeitstempel (When) und Inhalt (What) strukturiert aus
- Benutzerdefinierte Hotwords verbessern die Erkennungsgenauigkeit für domänenspezifische Begriffe
- Mehrsprachiges Modell mit nativer Unterstützung für mehr als 50 Sprachen
- Ab März 2026 in Hugging Face Transformers integriert
- Unterstützung für vLLM-Inferenz für schnellere Inferenz sowie Veröffentlichung von Fine-Tuning-Code
VibeVoice-TTS (1.5B): erzeugt bis zu 90 Minuten dialogorientierte Sprache in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher gleichzeitig
- Erzeugt ausdrucksstarke, natürliche Sprache, die emotionale Nuancen und Gesprächsdynamik erfasst, und unterstützt mehrere Sprachen
- Wurde am 25. August 2025 veröffentlicht; nachdem Fälle einer nicht beabsichtigten Nutzung festgestellt wurden, wurde der TTS-Code am 5. September 2025 aus dem Repository entfernt
VibeVoice-Realtime (0.5B): Echtzeit-TTS für bis zu 10 Minuten mit erster Sprachausgabe nach etwa 300 Millisekunden
- Leichtgewichtiges Echtzeit-Text-zu-Sprache-Modell mit 0.5B Parametern, deployment-freundlich
- Unterstützt Streaming-Texteingaben
- Veröffentlicht am 3. Dezember 2025; später wurden am 16. Dezember experimentell mehrsprachige Stimmen in 9 Sprachen (DE, FR, IT, JP, KR, NL, PL, PT, ES) sowie 11 englische Stilstimmen hinzugefügt
- Unterstützung für Apple Silicon (MPS) wurde zur Gradio-ASR-Demo hinzugefügt und verbessert die Nutzbarkeit auf dem Mac
Basierend auf dem Basismodell (Qwen2.5 1.5B) und kann daher Verzerrungen und Fehler übernehmen; Vorsicht vor möglichem Missbrauch für Deepfakes ist geboten
MIT-Lizenz

VibeVoice – Open-Source-Sprach-KI-Modell

Verwandte Beiträge

1 Kommentare