VibeVoice - Open-Source-Sprach-KI an der Front

(github.com/microsoft)

1 Punkte von GN⁺ 12 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Besteht aus einer Sprach-KI-Modellfamilie mit TTS und ASR und deckt sowohl die Erzeugung als auch die Erkennung langer Sprachsequenzen ab
Die Kernarchitektur kombiniert einen kontinuierlichen Sprach-Tokenizer mit 7,5 Hz und extrem niedriger Framerate mit next-token diffusion, um bei langen Sequenzen sowohl Audioqualität als auch Recheneffizienz zu erreichen
Für das Verständnis von Textkontext und Gesprächsverlauf wird ein LLM verwendet; für die hochpräzise Erzeugung akustischer Details kommt eine Diffusion-Head-Struktur hinzu
VibeVoice-ASR verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und erzeugt strukturierte Transkriptionen mit Sprecherinformationen, Zeitstempeln und Äußerungsinhalten
Das ASR-Modell unterstützt mehr als 50 Sprachen und kann benutzerdefinierte Hotwords oder Kontextinformationen aufnehmen, um die domänenspezifische Erkennungsgenauigkeit zu verbessern
Für ASR sind Finetuning-Code und vLLM-Inferenzunterstützung veröffentlicht; außerdem lässt es sich direkt mit der Hugging Face Transformers-Bibliothek verwenden
VibeVoice-TTS synthetisiert Sprachsequenzen mit einer Länge von bis zu 90 Minuten in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher innerhalb eines Gesprächs
TTS legt den Schwerpunkt auf ausdrucksstarke dialogorientierte Sprache und Sprecherkonsistenz und unterstützt Englisch, Chinesisch und weitere Sprachen
Laut Hinweis im Repository wurde der VibeVoice-TTS-Code entfernt; es wird ausdrücklich angegeben, dass nach der Veröffentlichung Nutzungen festgestellt wurden, die nicht der erklärten Absicht entsprachen, weshalb er aus dem Repository gelöscht wurde
VibeVoice-Realtime-0.5B ist ein Echtzeit-TTS-Modell mit 0,5B Parametern und unterstützt Streaming-Texteingaben, eine erste hörbare Latenz von etwa 300 ms sowie die Erzeugung langer Sprachsequenzen von rund 10 Minuten
Dem Realtime-Modell wurden mehrsprachige experimentelle Stimmen für 9 Sprachen sowie 11 englische Stil-Stimmen hinzugefügt; laut Beschreibung sollen weitere Sprechertypen folgen
Die Bereitstellung erfolgt vor allem über Hugging Face-Gewichte, Playground und Colab, wodurch sich das Modell schnell ausprobieren lässt
Dieses Repository ist ausschließlich für Forschungs- und Entwicklungszwecke vorgesehen; der Einsatz in kommerziellen oder produktiven Umgebungen ohne zusätzliche Tests und Entwicklung wird nicht empfohlen
Die Modelle können Biases und Fehler des Basismodells Qwen2.5 1.5b übernehmen; wegen Risiken wie Deepfakes, Identitätsvortäuschung und Desinformation werden rechtmäßige und verantwortungsvolle Nutzung sowie die Kennzeichnung KI-generierter Inhalte empfohlen

VibeVoice - Open-Source-Sprach-KI an der Front

Verwandte Beiträge

Noch keine Kommentare.