1 Punkte von GN⁺ 12 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Besteht aus einer Sprach-KI-Modellfamilie mit TTS und ASR und deckt sowohl die Erzeugung als auch die Erkennung langer Sprachsequenzen ab
  • Die Kernarchitektur kombiniert einen kontinuierlichen Sprach-Tokenizer mit 7,5 Hz und extrem niedriger Framerate mit next-token diffusion, um bei langen Sequenzen sowohl Audioqualität als auch Recheneffizienz zu erreichen
  • Für das Verständnis von Textkontext und Gesprächsverlauf wird ein LLM verwendet; für die hochpräzise Erzeugung akustischer Details kommt eine Diffusion-Head-Struktur hinzu
  • VibeVoice-ASR verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und erzeugt strukturierte Transkriptionen mit Sprecherinformationen, Zeitstempeln und Äußerungsinhalten
  • Das ASR-Modell unterstützt mehr als 50 Sprachen und kann benutzerdefinierte Hotwords oder Kontextinformationen aufnehmen, um die domänenspezifische Erkennungsgenauigkeit zu verbessern
  • Für ASR sind Finetuning-Code und vLLM-Inferenzunterstützung veröffentlicht; außerdem lässt es sich direkt mit der Hugging Face Transformers-Bibliothek verwenden
  • VibeVoice-TTS synthetisiert Sprachsequenzen mit einer Länge von bis zu 90 Minuten in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher innerhalb eines Gesprächs
  • TTS legt den Schwerpunkt auf ausdrucksstarke dialogorientierte Sprache und Sprecherkonsistenz und unterstützt Englisch, Chinesisch und weitere Sprachen
  • Laut Hinweis im Repository wurde der VibeVoice-TTS-Code entfernt; es wird ausdrücklich angegeben, dass nach der Veröffentlichung Nutzungen festgestellt wurden, die nicht der erklärten Absicht entsprachen, weshalb er aus dem Repository gelöscht wurde
  • VibeVoice-Realtime-0.5B ist ein Echtzeit-TTS-Modell mit 0,5B Parametern und unterstützt Streaming-Texteingaben, eine erste hörbare Latenz von etwa 300 ms sowie die Erzeugung langer Sprachsequenzen von rund 10 Minuten
  • Dem Realtime-Modell wurden mehrsprachige experimentelle Stimmen für 9 Sprachen sowie 11 englische Stil-Stimmen hinzugefügt; laut Beschreibung sollen weitere Sprechertypen folgen
  • Die Bereitstellung erfolgt vor allem über Hugging Face-Gewichte, Playground und Colab, wodurch sich das Modell schnell ausprobieren lässt
  • Dieses Repository ist ausschließlich für Forschungs- und Entwicklungszwecke vorgesehen; der Einsatz in kommerziellen oder produktiven Umgebungen ohne zusätzliche Tests und Entwicklung wird nicht empfohlen
  • Die Modelle können Biases und Fehler des Basismodells Qwen2.5 1.5b übernehmen; wegen Risiken wie Deepfakes, Identitätsvortäuschung und Desinformation werden rechtmäßige und verantwortungsvolle Nutzung sowie die Kennzeichnung KI-generierter Inhalte empfohlen

Noch keine Kommentare.

Noch keine Kommentare.