VALL-E – Ein von Microsoft entwickeltes Sprachmodell für Sprachsynthese

xguru · 2023-01-10T10:24:40+09:00

Transformer-basiertes Text-to-Speech-Modell Mit nur 3 Sekunden einer beliebigen Stimme kann Sprache in genau dieser Stimme synthetisiert werden Deutlich natürlicher und dem Sprecher ähnlicher als aktuelle Zero-shot-TTS-Modelle; bewahrt zudem die Emotionen des Sprechers und die akustische Umgebung Die frühere Pipeline war phoneme (Phoneme) → mel-spectrogram → waveform, bei VALL-E ist es phoneme → discrete code → waveform Kann mit verschiedenen Sprachsynthese-Anwendungen sowie mit KI-Modellen wie GPT-3 kombiniert werden

Transformer-basiertes Text-to-Speech-Modell
Mit nur 3 Sekunden einer beliebigen Stimme kann Sprache in genau dieser Stimme synthetisiert werden
Deutlich natürlicher und dem Sprecher ähnlicher als aktuelle Zero-shot-TTS-Modelle; bewahrt zudem die Emotionen des Sprechers und die akustische Umgebung
Die frühere Pipeline war phoneme (Phoneme) → mel-spectrogram → waveform,
bei VALL-E ist es phoneme → discrete code → waveform
Kann mit verschiedenen Sprachsynthese-Anwendungen sowie mit KI-Modellen wie GPT-3 kombiniert werden

3 Kommentare

openmind 2023-01-10

Durch die Fortschritte im Machine Learning scheint auch die Einstiegshürde für TTS-Technologie gesunken zu sein. Wenn man in Open-Source-Repositories sucht, kann man sogar seine eigene Stimme aufnehmen und ein selbst gebautes TTS für die eigene Stimme erstellen.

jjpark78 2023-01-10

Jetzt können Sprachwellen offenbar nicht mehr wie ein Fingerabdruck zur Identifizierung einer Person dienen. -_-;

Ich meine, ich hätte irgendwo gehört, dass man beim Abhören auf großen Servern die Stimmabdrücke bestimmter Personen nutzt, damit auf bestimmte Schlüsselwörter in diesen Stimmabdrücken reagiert wird ...

Wenn sich Stimmen in diesem Maß synthetisieren lassen, dann sind solche Systeme wohl jetzt obsolet ...

VALL-E – Ein von Microsoft entwickeltes Sprachmodell für Sprachsynthese

Verwandte Beiträge

3 Kommentare