OpenVoice: Vielseitige Technologie zur sofortigen Stimmenklonung
- OpenVoice ist ein vielseitiger Ansatz zur Stimmenklonung, der mit nur einem kurzen Audioclip einer Referenzstimme diese Stimme klonen und Sprache in verschiedenen Sprachen erzeugen kann.
- Die Technologie bietet flexible Steuerung des Sprachstils und ermöglicht neben der Reproduktion der Klangfarbe der Referenzstimme auch eine feingranulare Kontrolle über Emotion, Akzent, Rhythmus, Pausen und Intonation.
- OpenVoice erreicht Zero-Shot-Cross-Lingual-Stimmenklonung auch für Sprachen, die nicht im groß angelegten Sprecher-Trainingsdatensatz enthalten sind.
Technische Details und Forschungsbeiträge
- OpenVoice zeichnet sich durch einen Rechenaufwand aus, der um ein Vielfaches effizienter ist als bei kommerziell verfügbaren APIs, und liefert zugleich starke Leistung.
- Zur weiteren Förderung des Forschungsfelds werden der Quellcode und die trainierten Modelle öffentlich zugänglich gemacht.
- Auf der Demo-Website werden qualitative Ergebnisse bereitgestellt; die interne Version vor der Veröffentlichung wurde von Mai bis Oktober 2023 weltweit zig Millionen Mal genutzt.
Meinung von GN⁺
- OpenVoice stellt einen wichtigen Fortschritt in der Stimmenklonung dar; insbesondere die Fähigkeit, Sprache in verschiedenen Sprachen und Stilen zu erzeugen, ist äußerst innovativ.
- Die Technologie hat das Potenzial für Anwendungen in vielen Bereichen wie Bildung, Unterhaltung und personalisierten Sprachdiensten.
- Der veröffentlichte Quellcode und die Modelle werden voraussichtlich dazu beitragen, die Forschung im Bereich Sprachtechnologie zu beschleunigen.
1 Kommentare
Hacker-News-Kommentare
Ein Nutzer lobt die Autoren dafür, dass sie den Einstieg in dieses Projekt so einfach gemacht haben. Mit allgemeinem Voice Cloning hat er jedoch keine zufriedenstellenden Ergebnisse erzielt. Er ließ den ersten Absatz der Wikipedia-Seite über Bücher vorlesen und den folgenden Satz erzeugen, aber das Ergebnis klang so, als wäre es von einem Computer erzeugt worden.
pipund führte"demo_part1.ipynb"mit seinem eigenen Audiobeispiel aus. Das Notebook lief fast sofort.Ein Nutzer bittet um Empfehlungen für ein gutes Open-Source-Projekt, das man für Voice Cloning auf der eigenen Hardware verwenden kann. Er ist neugierig auf den aktuellen Stand von Open-Source-Voice-Cloning.
Ein Nutzer fragt, ob sich mit dieser Technik (oder Eleven Labs) ein Stimmenmodell erzeugen lässt, das sich in die TTS-Funktion eines Android-Smartphones einklinken lässt.
Ein Nutzer mag das Paper. Es vermittelt ihm das Gefühl: „Das haben wir gemacht, und wir möchten anderen helfen, es ebenfalls zu tun.“ Besonders positiv bewertet er den Abschnitt „Remark on Novelty“: Der Beitrag von OpenVoice liege nicht in der Erfindung von Untermodulen der Modellarchitektur, sondern in einem entkoppelten Framework, das Stimmstil- und Sprachsteuerung von der Timbre-Klonung trennt.
Es werden ein GitHub-Link und ein Checkpoint-Link (ZIP-Datei) bereitgestellt. Ein Nutzer hat offenbar eine Allergie gegen direkte Links zu auf Amazon gehosteten ZIP-Dateien und stellt deshalb einen angepassten Checkpoint-Link bereit.
Ein Nutzer bewertet die bereitgestellten Beispiel-Links als beeindruckend.
Ein Nutzer hofft, dass YouTube die Nutzung dieser Technologie verbietet oder zumindest eine Funktion bereitstellt, mit der sich solche Videos herausfiltern lassen.
Ein Nutzer berichtet, dass ihn eine der großen Banken im Vereinigten Königreich bei einem Anruf immer noch dazu ermutigte, sich für ein Programm mit dem Slogan „my voice is my password“ anzumelden. Angesichts des aktuellen Stands der KI wirkt das schlicht fahrlässig.
Ein Nutzer sagt, sein erster und anhaltender Gedanke sei, dass unmoralische oder kriminelle Anwendungen des Voice Cloning legitime Anwendungsfälle bei weitem übertreffen.
Der aktuelle Spitzenreiter im Bereich Open-Source-Voice-Cloning ist RVC, und ein Nutzer würde gern sehen, wie es sich im Vergleich dazu unterscheidet.