24 Punkte von xguru 2025-02-14 | 2 Kommentare | Auf WhatsApp teilen
  • Open-Weight-Text-to-Speech-Modell, trainiert mit mehr als 200.000 Stunden mehrsprachiger Sprachdaten
  • „Gleichwertige oder bessere Sprachqualität“ als kommerzielle TTS-Dienste sowie „natürliche Ausdrucksstärke“
  • Hochwertige Sprachausgabe mit 44-kHz-Abtastrate
  • Unterstützt Voice Cloning: Mit nur wenigen Sekunden Referenzsprache lässt sich der Stil einer bestimmten Sprecherin oder eines bestimmten Sprechers präzise nachbilden
  • Umfangreiche Steuerungsmöglichkeiten: Sprechgeschwindigkeit, Tonhöhe, Klangqualität und Emotionen (Freude, Angst, Traurigkeit, Wut usw.) lassen sich kontrollieren

Hauptfunktionen

  • Zero-shot-TTS und Voice Cloning
    • Gibt man Text und ein 10–30 Sekunden langes Sprecher-Sample ein, ist sofort hochwertige Sprachsynthese möglich
  • Unterstützung für Audio-Prefix-Eingaben
    • Wird zusammen mit dem Text ein Audio-Prefix hinzugefügt, ist ein präziseres Speaker-Matching möglich
    • Besonders effektiv, um bestimmte Sprechstile wie Flüsterstimmen umzusetzen
  • Mehrsprachige Unterstützung
    • Unterstützt Englisch, Japanisch, Chinesisch, Französisch und Deutsch
  • Steuerung von Emotionen und Sprachqualität
    • Emotionssteuerung: Ausdruck von Freude, Wut, Traurigkeit, Angst usw. möglich
    • Detaillierte Sprachsteuerung: Geschwindigkeit, Tonhöhe, maximale Frequenz und Audioqualität lassen sich anpassen
  • Hohe Geschwindigkeit
    • Läuft auf einer RTX 4090 mit etwa doppelter Echtzeitgeschwindigkeit
  • Unterstützung für Gradio WebUI
    • Bietet eine einfache Weboberfläche, mit der jede Person leicht Sprache erzeugen kann
  • Einfache Installation und Bereitstellung
    • Installation und Bereitstellung sind mit Docker problemlos möglich

2 Kommentare

 
mindok 2025-02-14

Schade, dass kein Koreanisch dabei ist,,,

 
marantz 2025-02-19

Es funktioniert auch auf Koreanisch recht gut. Allerdings wirkt es etwas unnatürlich.