17 Punkte von xguru 2023-01-10 | 3 Kommentare | Auf WhatsApp teilen
  • Transformer-basiertes Text-to-Speech-Modell
  • Mit nur 3 Sekunden einer beliebigen Stimme kann Sprache in genau dieser Stimme synthetisiert werden
  • Deutlich natürlicher und dem Sprecher ähnlicher als aktuelle Zero-shot-TTS-Modelle; bewahrt zudem die Emotionen des Sprechers und die akustische Umgebung
  • Die frühere Pipeline war phoneme (Phoneme) → mel-spectrogram → waveform,
    bei VALL-E ist es phoneme → discrete code → waveform
  • Kann mit verschiedenen Sprachsynthese-Anwendungen sowie mit KI-Modellen wie GPT-3 kombiniert werden

3 Kommentare

 
openmind 2023-01-10

Durch die Fortschritte im Machine Learning scheint auch die Einstiegshürde für TTS-Technologie gesunken zu sein. Wenn man in Open-Source-Repositories sucht, kann man sogar seine eigene Stimme aufnehmen und ein selbst gebautes TTS für die eigene Stimme erstellen.

 
jjpark78 2023-01-10

Jetzt können Sprachwellen offenbar nicht mehr wie ein Fingerabdruck zur Identifizierung einer Person dienen. -_-;

Ich meine, ich hätte irgendwo gehört, dass man beim Abhören auf großen Servern die Stimmabdrücke bestimmter Personen nutzt, damit auf bestimmte Schlüsselwörter in diesen Stimmabdrücken reagiert wird ...

Wenn sich Stimmen in diesem Maß synthetisieren lassen, dann sind solche Systeme wohl jetzt obsolet ...