- Open-Weight-Text-to-Speech-Modell, trainiert mit mehr als 200.000 Stunden mehrsprachiger Sprachdaten
- „Gleichwertige oder bessere Sprachqualität“ als kommerzielle TTS-Dienste sowie „natürliche Ausdrucksstärke“
- Hochwertige Sprachausgabe mit 44-kHz-Abtastrate
- Unterstützt Voice Cloning: Mit nur wenigen Sekunden Referenzsprache lässt sich der Stil einer bestimmten Sprecherin oder eines bestimmten Sprechers präzise nachbilden
- Umfangreiche Steuerungsmöglichkeiten: Sprechgeschwindigkeit, Tonhöhe, Klangqualität und Emotionen (Freude, Angst, Traurigkeit, Wut usw.) lassen sich kontrollieren
Hauptfunktionen
- Zero-shot-TTS und Voice Cloning
- Gibt man Text und ein 10–30 Sekunden langes Sprecher-Sample ein, ist sofort hochwertige Sprachsynthese möglich
- Unterstützung für Audio-Prefix-Eingaben
- Wird zusammen mit dem Text ein Audio-Prefix hinzugefügt, ist ein präziseres Speaker-Matching möglich
- Besonders effektiv, um bestimmte Sprechstile wie Flüsterstimmen umzusetzen
- Mehrsprachige Unterstützung
- Unterstützt Englisch, Japanisch, Chinesisch, Französisch und Deutsch
- Steuerung von Emotionen und Sprachqualität
- Emotionssteuerung: Ausdruck von Freude, Wut, Traurigkeit, Angst usw. möglich
- Detaillierte Sprachsteuerung: Geschwindigkeit, Tonhöhe, maximale Frequenz und Audioqualität lassen sich anpassen
- Hohe Geschwindigkeit
- Läuft auf einer RTX 4090 mit etwa doppelter Echtzeitgeschwindigkeit
- Unterstützung für Gradio WebUI
- Bietet eine einfache Weboberfläche, mit der jede Person leicht Sprache erzeugen kann
- Einfache Installation und Bereitstellung
- Installation und Bereitstellung sind mit Docker problemlos möglich
2 Kommentare
Schade, dass kein Koreanisch dabei ist,,,
Es funktioniert auch auf Koreanisch recht gut. Allerdings wirkt es etwas unnatürlich.