VibeVoice - Open-Source-Sprach-KI an der Front
(github.com/microsoft)- Besteht aus einer Sprach-KI-Modellfamilie mit TTS und ASR und deckt sowohl die Erzeugung als auch die Erkennung langer Sprachsequenzen ab
- Die Kernarchitektur kombiniert einen kontinuierlichen Sprach-Tokenizer mit 7,5 Hz und extrem niedriger Framerate mit next-token diffusion, um bei langen Sequenzen sowohl Audioqualität als auch Recheneffizienz zu erreichen
- Für das Verständnis von Textkontext und Gesprächsverlauf wird ein LLM verwendet; für die hochpräzise Erzeugung akustischer Details kommt eine Diffusion-Head-Struktur hinzu
- VibeVoice-ASR verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und erzeugt strukturierte Transkriptionen mit Sprecherinformationen, Zeitstempeln und Äußerungsinhalten
- Das ASR-Modell unterstützt mehr als 50 Sprachen und kann benutzerdefinierte Hotwords oder Kontextinformationen aufnehmen, um die domänenspezifische Erkennungsgenauigkeit zu verbessern
- Für ASR sind Finetuning-Code und vLLM-Inferenzunterstützung veröffentlicht; außerdem lässt es sich direkt mit der Hugging Face Transformers-Bibliothek verwenden
- VibeVoice-TTS synthetisiert Sprachsequenzen mit einer Länge von bis zu 90 Minuten in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher innerhalb eines Gesprächs
- TTS legt den Schwerpunkt auf ausdrucksstarke dialogorientierte Sprache und Sprecherkonsistenz und unterstützt Englisch, Chinesisch und weitere Sprachen
- Laut Hinweis im Repository wurde der VibeVoice-TTS-Code entfernt; es wird ausdrücklich angegeben, dass nach der Veröffentlichung Nutzungen festgestellt wurden, die nicht der erklärten Absicht entsprachen, weshalb er aus dem Repository gelöscht wurde
- VibeVoice-Realtime-0.5B ist ein Echtzeit-TTS-Modell mit 0,5B Parametern und unterstützt Streaming-Texteingaben, eine erste hörbare Latenz von etwa 300 ms sowie die Erzeugung langer Sprachsequenzen von rund 10 Minuten
- Dem Realtime-Modell wurden mehrsprachige experimentelle Stimmen für 9 Sprachen sowie 11 englische Stil-Stimmen hinzugefügt; laut Beschreibung sollen weitere Sprechertypen folgen
- Die Bereitstellung erfolgt vor allem über Hugging Face-Gewichte, Playground und Colab, wodurch sich das Modell schnell ausprobieren lässt
- Dieses Repository ist ausschließlich für Forschungs- und Entwicklungszwecke vorgesehen; der Einsatz in kommerziellen oder produktiven Umgebungen ohne zusätzliche Tests und Entwicklung wird nicht empfohlen
- Die Modelle können Biases und Fehler des Basismodells Qwen2.5 1.5b übernehmen; wegen Risiken wie Deepfakes, Identitätsvortäuschung und Desinformation werden rechtmäßige und verantwortungsvolle Nutzung sowie die Kennzeichnung KI-generierter Inhalte empfohlen
1 Kommentare
Hacker-News-Kommentare
Das ist nicht einmal ein neues Modell, und gemessen an STT hat es viele Halluzinationen, die Inferenz ist schwergewichtig und langsam, und die mehrsprachige Leistung ist auch nicht besonders gut
Zu den anderen Funktionen kann ich nichts sagen, hier geht es rein um Speech-to-Text
Insgesamt wirkt es aber so, als sei es mit stark verrauschten Daten trainiert worden, verbraucht mehr Speicher und ist auch nicht schnell
Ich spreche von der 7B-Version
vibevoice-community, die früher kurz veröffentlicht und dann schnell wieder entfernt wurde, und nutze derzeit weiter chatterbox turbo und gelegentlich qwen TTSAuf Twitter geht es auch nur noch darum
Ich habe es ein paar Tage benutzt, aber schon für das 1.5B-Modell gibt es keine Dokumentation, und das 0.5B-Realtime-Modell war miserabel
Es wandelte Text zeilenweise um, fügte dabei zufällig Musik ein und konnte nicht einmal Sonderzeichen wie
…sauber verarbeitenEhrlich gesagt ziemlich enttäuschend
Ich habe den Repo-Star sofort wieder entfernt und werde es einfach überspringen
Ich finde, man sollte aufhören, Modelle dieser Art Open Source zu nennen
In Wirklichkeit sind sie nur open weight, der Trainingscode ist proprietär und wurde nie veröffentlicht
https://github.com/microsoft/VibeVoice/issues/102
Entschuldigung, Stallman
Wichtiger ist für mich, was ich tatsächlich tun kann, wenn bei einem Projekt steht, es sei Open Source
Die Unterscheidung open source vs. open weight scheint inzwischen in dieselbe Kategorie zu fallen wie hacker/cracker oder die GIF-Aussprachedebatte
Das heißt nur, dass du keinen Zugriff hast, nicht, dass die Lizenz nicht MIT wäre
Trotzdem stimme ich völlig zu, dass Microsoft hier die Offenheit übertreibt, und überraschend ist das auch nicht
Nicht öffentliche Trainingsdaten stören mich auch, aber einschränkende Lizenzen stören mich mehr
In dieser Kategorie ist Voxtral meiner Meinung nach deutlich besser
Außerdem ist es klein genug, um auf webGPU zu laufen
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont hat etwas Interessantes zu diesem Repo/Produkt/Autor gepostet
https://cyberplace.social/@GossiTheDog/116454846703138243
Ich glaube, das ist doch das Projekt, das Microsoft veröffentlicht und dann aus Sicherheits-/Safety-Gründen schnell wieder entfernt hatte
Ich frage mich, was sich seitdem geändert hat
Das ursprüngliche TTS-Modell ist aus diesem Repo verschwunden, anderswo lässt es sich aber noch finden
Stattdessen sind SST/ASR, Long-Form-TTS und Streaming-TTS die neueren Modelle
Denn dieses Projekt deckt mehrere Bereiche gleichzeitig ab, einschließlich der gerade genannten
Es ist schon interessant, dass ein Unternehmen wie Microsoft vibe als offiziellen Begriff für AI-Produkte etabliert
Auch mein speech-swift konzentriert sich wie VibeVoice auf On-Device-Sprachverarbeitung
Allerdings habe ich es so gebaut, dass ASR, TTS, VAD die Fähigkeiten von Apple Silicon ohne Cloud-Abhängigkeit nutzen
ASR unterstützt 52 Sprachen und der Real-Time-Factor liegt bei 0.06
https://soniqo.audio/benchmarks
Simons Beitrag von gestern Abend war gut
https://simonwillison.net/2026/Apr/27/vibevoice/
Das ist eher ein Whisper-ähnlicher Bereich; daneben gibt es auch noch separate Modelle für Long-Form-TTS und Streaming-TTS
Ich frage mich, warum das so ist
Ich habe Microsoft Sam als Standardstimme des Computers ausgewählt
Sususususususu
Wow, endlich mal ein Microsoft-AI-Produkt, das nicht Copilot heißt