12 Punkte von xguru 2024-02-10 | Noch keine Kommentare. | Auf WhatsApp teilen
  • TTS-Modell (Text-to-Speech) mit 1,2 Milliarden Parametern, trainiert mit 100.000 Stunden Sprachdaten
  • Emotionaler Sprechrhythmus und Tonfall (Englisch)
  • Unterstützt Voice Cloning durch Fine-Tuning (bei indischen Sprechern war es bereits mit nur etwa 1 Minute Sprachdaten erfolgreich)
  • Für US-/UK-Stimmen ist Zero-Shot-Cloning bereits mit nur 30 Sekunden Referenz-Audio möglich
  • Unterstützt lange Sprachsynthese
  • Ohne Einschränkungen unter der Apache-2.0-Lizenz nutzbar

Noch keine Kommentare.

Noch keine Kommentare.