MetaVoice-1B – Text-to-Speech-Modell mit 1,2 Milliarden Parametern
(github.com/metavoiceio)- TTS-Modell (Text-to-Speech) mit 1,2 Milliarden Parametern, trainiert mit 100.000 Stunden Sprachdaten
- Emotionaler Sprechrhythmus und Tonfall (Englisch)
- Unterstützt Voice Cloning durch Fine-Tuning (bei indischen Sprechern war es bereits mit nur etwa 1 Minute Sprachdaten erfolgreich)
- Für US-/UK-Stimmen ist Zero-Shot-Cloning bereits mit nur 30 Sekunden Referenz-Audio möglich
- Unterstützt lange Sprachsynthese
- Ohne Einschränkungen unter der Apache-2.0-Lizenz nutzbar
Noch keine Kommentare.