- Eine vielseitige Methode zur sofortigen Stimmenklonierung, mit der sich allein anhand eines kurzen Audio-Clips einer Referenzsprecherin oder eines Referenzsprechers deren Stimme klonen und Sprache in mehreren Sprachen erzeugen lässt
- Ermöglicht eine fein abgestimmte Steuerung des Stimmstils und kann nicht nur Emotionen, Intonation, Rhythmus, Pausen und Prosodie, sondern auch die Klangfarbe der Referenzstimme nachbilden
- Zero-Shot-sprachübergreifende Stimmenklonierung ist auch für Sprachen möglich, die nicht im Trainingssatz mit einer großen Anzahl von Sprecherinnen und Sprechern enthalten sind
- Bietet hervorragende Leistung bei einem Rechenaufwand, der um ein Vielfaches geringer ist als bei kommerziell verfügbaren APIs
- Kann die Referenz-Klangfarbe präzise reproduzieren und Sprache in verschiedenen Sprachen und Akzenten erzeugen
- Ermöglicht eine fein granulare Kontrolle über weitere Stilparameter wie Rhythmus, Pausen und Prosodie sowie über Emotion und Intonation
1 Kommentare
Hacker-News-Kommentare
Ein Hacker-News-Nutzer teilte seine Erfahrungen und erklärte, wie man die Gradio-Demo von OpenVoice lokal ausführt. Er erwähnte, dass er mit einer RTX 3090 Sprache schneller als mit XTTS2 generieren konnte und dabei etwa 1,5 GB VRAM nutzte. Die Demo ist unter Berücksichtigung des Ressourcenverbrauchs auf 200 Zeichen begrenzt, soll aber mit der achtfachen Echtzeitgeschwindigkeit laufen. Außerdem sagte er, dass er nach einer Modifikation der Demo zum Testen längerer Texte etwa 1 Minute Audio in rund 4 Sekunden gerendert habe. Die Verständlichkeit der Stimme sei besser als bei XTTS2, wirke aber etwas unnatürlich und roboterhaft.
Ein anderer Nutzer stellte die ethischen Anwendungsfälle von Voice-Cloning-Technologie infrage. Er erwähnte negative Einsatzmöglichkeiten wie Pornografie, Identitätsdiebstahl, Vortäuschung fremder Identität, Ersatz von Synchron- oder Sprechstimmen, Diebstahl von Sprecherstimmen und das Verbergen des Einsatzes von Bots im Kundensupport. Es könne zwar auch positive Anwendungsfälle geben, etwa Menschen, die ihre Stimme verloren haben, ihre echte Stimme zurückzugeben, doch er argumentierte, dass dieser Markt nicht groß genug sei, um Investitionen zu rechtfertigen.
Ein Nutzer teilte die Information, dass OpenVoice auf dem Huggingface-TTS-Wettbewerbs-Leaderboard den zweitschlechtesten Rang belegt. Er erwähnte, dass Alternativen wie styletts2 und xtts2 deutlich höher eingestuft seien als OpenVoice.
Ein Nutzer wunderte sich darüber, dass die Nachahmung von Elon Musks Stimme als Qualitätsnachweis verwendet wird. Tatsächlich neige Musks Stimme selbst dazu, unbeholfen und abgehackt zu klingen, weshalb man seiner Ansicht nach eine bessere Stimme nachahmen könnte.
Ein Nutzer berichtete, dass Voicecraft seine Modellgewichte veröffentlicht habe.
Ein Nutzer erwähnte, dass er lokal keine Sprachklonung in vergleichbarer Qualität wie die auf der Website bereitgestellten Clips erreicht habe. Er vermutete, dass er möglicherweise etwas falsch gemacht habe.
Ein Nutzer bestätigte auf GitHub, dass es lokal ausführbar sei, und bewertete die Qualität als gut.
Ein Nutzer erklärte den Prozess, Sprache in eine IPA-ähnliche Darstellung zu kodieren und diese Darstellung dann in die Zielsprache zu dekodieren. Er erwähnte außerdem den Prozess, den „Stimmklang“ zu extrahieren, ihn aus der IPA-ähnlichen Darstellung zu entfernen und ihn dann in der Zielschicht wieder hinzuzufügen. Dadurch könne man hören, wie die eigene Stimme in einer anderen Sprache mit ähnlichem Stimmklang spricht. Der Nutzer fragte sich, wie ähnlich das Ergebnis wäre, wenn er fließend Chinesisch lernen würde, und ob man einen „Stimmklang-Übersetzer“ brauche, der den Stimmklang in andere Sprachen übersetzt.
Ein Nutzer fragte, ob jemand ein „umgekehrtes“ Modell kenne, das Sprecher in mehreren Aufnahmen identifizieren und damit eine Sprechertrennung durchführen könne.
Ein Nutzer bewertete, dass alle Voice-Cloning-Tools ein Merkmal namens „vocal fry“ hätten, was wie ein Uncanny Valley wirke, in dem die feinen Nuancen der Stimme nicht exakt getroffen würden. Er erklärte, dass diese Tools sich nie ganz von den atemartigen Geräuschen ähnlich wie bei Microsoft Sam lösen könnten.