Open Source zum Echtzeit-Klonen von Stimmen mit nur 5 Sekunden Sprachmaterial einer bestimmten Person
(github.com)Eine Implementierung des Papers „Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS)“.
Eine Implementierung des Papers „Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS)“.
2 Kommentare
Wenn sich die Technologien zur Gesichts- und Sprachsynthese weiterentwickeln, wird sich letztlich vielleicht auch die Bedeutung von Aussehen und Stimme verändern. Über äußere, materielle Merkmale wird man eine Person dann nicht mehr eindeutig bestimmen können. Ich glaube, es kommt eine Zeit, in der wir uns stärker auf den menschlichen Geist und das Wesentliche konzentrieren.
YouTube-Demovideo: https://www.youtube.com/watch?v=-O_hYhToKoA