Zonos – Hochwertiges Open-Weight-Sprachsynthesemodell

xguru · 2025-02-14T10:23:01+09:00

Open-Weight-Text-to-Speech-Modell, trainiert mit mehr als 200.000 Stunden mehrsprachiger Sprachdaten „Gleichwertige oder bessere Sprachqualität“ als kommerzielle TTS-Dienste sowie „natürliche Ausdrucksstärke“ Hochwertige Sprachausgabe mit 44-kHz-Abtastrate Unterstützt Voice Cloning: Mit nur wenigen Sekunden Referenzsprache lässt sich der Stil einer bestimmten Sprecherin oder eines bestimmten Sprechers präzise nachbilden Umfangreiche Steuerungsmöglichkeiten: Sprechgeschwindigkeit, Tonhöhe, Klangqualität und Emotionen (Freude, Angst, Traurigkeit, Wut usw.) lassen sich kontrollieren Hauptfunktionen Zero-shot-TTS und Voice Cloning Gibt man Text und ein 10–30 Sekunden langes Sprecher-Sample ein, ist sofort hochwertige Sprachsynthese möglich Unterstützung für Audio-Prefix-Eingaben Wird zusammen mit dem Text ein Audio-Prefix hinzugefügt, ist ein präziseres Speaker-Matching möglich Besonders effektiv, um bestimmte Sprechstile wie Flüsterstimmen umzusetzen Mehrsprachige Unterstützung Unterstützt Englisch, Japanisch, Chinesisch, Französisch und Deutsch Steuerung von Emotionen und Sprachqualität Emotionssteuerung: Ausdruck von Freude, Wut, Traurigkeit, Angst usw. möglich Detaillierte Sprachsteuerung: Geschwindigkeit, Tonhöhe, maximale Frequenz und Audioqualität lassen sich anpassen Hohe Geschwindigkeit Läuft auf einer RTX 4090 mit etwa doppelter Echtzeitgeschwindigkeit Unterstützung für Gradio WebUI Bietet eine einfache Weboberfläche, mit der jede Person leicht Sprache erzeugen kann Einfache Installation und Bereitstellung Installation und Bereitstellung sind mit Docker problemlos möglich

(github.com/Zyphra)

24 Punkte von xguru 2025-02-14 | 2 Kommentare | Auf WhatsApp teilen

Open-Weight-Text-to-Speech-Modell, trainiert mit mehr als 200.000 Stunden mehrsprachiger Sprachdaten
„Gleichwertige oder bessere Sprachqualität“ als kommerzielle TTS-Dienste sowie „natürliche Ausdrucksstärke“
Hochwertige Sprachausgabe mit 44-kHz-Abtastrate
Unterstützt Voice Cloning: Mit nur wenigen Sekunden Referenzsprache lässt sich der Stil einer bestimmten Sprecherin oder eines bestimmten Sprechers präzise nachbilden
Umfangreiche Steuerungsmöglichkeiten: Sprechgeschwindigkeit, Tonhöhe, Klangqualität und Emotionen (Freude, Angst, Traurigkeit, Wut usw.) lassen sich kontrollieren

Hauptfunktionen

Zero-shot-TTS und Voice Cloning
- Gibt man Text und ein 10–30 Sekunden langes Sprecher-Sample ein, ist sofort hochwertige Sprachsynthese möglich
Unterstützung für Audio-Prefix-Eingaben
- Wird zusammen mit dem Text ein Audio-Prefix hinzugefügt, ist ein präziseres Speaker-Matching möglich
- Besonders effektiv, um bestimmte Sprechstile wie Flüsterstimmen umzusetzen
Mehrsprachige Unterstützung
- Unterstützt Englisch, Japanisch, Chinesisch, Französisch und Deutsch
Steuerung von Emotionen und Sprachqualität
- Emotionssteuerung: Ausdruck von Freude, Wut, Traurigkeit, Angst usw. möglich
- Detaillierte Sprachsteuerung: Geschwindigkeit, Tonhöhe, maximale Frequenz und Audioqualität lassen sich anpassen
Hohe Geschwindigkeit
- Läuft auf einer RTX 4090 mit etwa doppelter Echtzeitgeschwindigkeit
Unterstützung für Gradio WebUI
- Bietet eine einfache Weboberfläche, mit der jede Person leicht Sprache erzeugen kann
Einfache Installation und Bereitstellung
- Installation und Bereitstellung sind mit Docker problemlos möglich

2 Kommentare

mindok 2025-02-14

Schade, dass kein Koreanisch dabei ist,,,

marantz 2025-02-19

Es funktioniert auch auf Koreanisch recht gut. Allerdings wirkt es etwas unnatürlich.

Zonos – Hochwertiges Open-Weight-Sprachsynthesemodell

Hauptfunktionen

Verwandte Beiträge

2 Kommentare