- Transformer-basiertes Text-to-Speech-Modell
- Mit nur 3 Sekunden einer beliebigen Stimme kann Sprache in genau dieser Stimme synthetisiert werden
- Deutlich natürlicher und dem Sprecher ähnlicher als aktuelle Zero-shot-TTS-Modelle; bewahrt zudem die Emotionen des Sprechers und die akustische Umgebung
- Die frühere Pipeline war phoneme (Phoneme) → mel-spectrogram → waveform,
bei VALL-E ist es phoneme → discrete code → waveform
- Kann mit verschiedenen Sprachsynthese-Anwendungen sowie mit KI-Modellen wie GPT-3 kombiniert werden
3 Kommentare
Durch die Fortschritte im Machine Learning scheint auch die Einstiegshürde für TTS-Technologie gesunken zu sein. Wenn man in Open-Source-Repositories sucht, kann man sogar seine eigene Stimme aufnehmen und ein selbst gebautes TTS für die eigene Stimme erstellen.
Jetzt können Sprachwellen offenbar nicht mehr wie ein Fingerabdruck zur Identifizierung einer Person dienen. -_-;
Ich meine, ich hätte irgendwo gehört, dass man beim Abhören auf großen Servern die Stimmabdrücke bestimmter Personen nutzt, damit auf bestimmte Schlüsselwörter in diesen Stimmabdrücken reagiert wird ...
Wenn sich Stimmen in diesem Maß synthetisieren lassen, dann sind solche Systeme wohl jetzt obsolet ...