- Erzeugt hochwertige Audioclips in verschiedenen Stilen, ähnlich wie KI für Bild- und Textgenerierung
- Kann auch vorgegebene Audiobeispiele bearbeiten
- Synthetisiert nicht nur Sprache in sechs Sprachen, sondern bietet auch Rauschunterdrückung, Inhaltsbearbeitung, Stilübertragung und die Generierung verschiedener Samples
- Bisherige generative KI für Sprache benötigte für jede einzelne Aufgabe sorgfältig vorbereitete Trainingsdaten. Voicebox wird mit einer neuen Methode auf Basis von Roh-Audio- und Transkriptionsdaten trainiert
- Trainiert mit mehr als 50.000 Stunden gemeinfreier Hörbücher auf Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch
2 Kommentare
Ich bin mir nicht sicher, ob man damit Gesang aus Songs entfernen und hochwertige Instrumentalversionen erstellen kann.
Dafür gibt es bereits brauchbare Open-Source-Software:
https://github.com/Anjok07/ultimatevocalremovergui