MetaVoice-1B – Text-to-Speech-Modell mit 1,2 Milliarden Parametern

xguru · 2024-02-10T10:16:01+09:00

TTS-Modell (Text-to-Speech) mit 1,2 Milliarden Parametern, trainiert mit 100.000 Stunden Sprachdaten Emotionaler Sprechrhythmus und Tonfall (Englisch) Unterstützt Voice Cloning durch Fine-Tuning (bei indischen Sprechern war es bereits mit nur etwa 1 Minute Sprachdaten erfolgreich) Für US-/UK-Stimmen ist Zero-Shot-Cloning bereits mit nur 30 Sekunden Referenz-Audio möglich Unterstützt lange Sprachsynthese Ohne Einschränkungen unter der Apache-2.0-Lizenz nutzbar

(github.com/metavoiceio)

12 Punkte von xguru 2024-02-10 | Noch keine Kommentare. | Auf WhatsApp teilen

TTS-Modell (Text-to-Speech) mit 1,2 Milliarden Parametern, trainiert mit 100.000 Stunden Sprachdaten
Emotionaler Sprechrhythmus und Tonfall (Englisch)
Unterstützt Voice Cloning durch Fine-Tuning (bei indischen Sprechern war es bereits mit nur etwa 1 Minute Sprachdaten erfolgreich)
Für US-/UK-Stimmen ist Zero-Shot-Cloning bereits mit nur 30 Sekunden Referenz-Audio möglich
Unterstützt lange Sprachsynthese
Ohne Einschränkungen unter der Apache-2.0-Lizenz nutzbar

MetaVoice-1B – Text-to-Speech-Modell mit 1,2 Milliarden Parametern

Verwandte Beiträge

Noch keine Kommentare.