OpenVoice: Technologie zum sofortigen Klonen von Stimmen
(github.com/myshell-ai)- OpenVoice ist ein Projekt für sofortiges Voice Cloning, das eine Referenzstimme kopiert und Sprache in mehreren Sprachen und Akzenten erzeugt; veröffentlicht wurden die Funktionen von V1 und V2
- V1 unterstützt präzises Klonen der Stimmfarbe, die Steuerung von Sprechstilen wie Emotion, Intonation, Rhythmus, Pausen und Tonhöhenverlauf sowie Zero-Shot sprachübergreifendes Voice Cloning
- OpenVoice V2 wurde im April 2024 veröffentlicht, enthält die Funktionen von V1 und liefert dank einer anderen Trainingsstrategie eine bessere Audioqualität
- V2 unterstützt Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch als native Mehrsprachigkeit; sowohl V1 als auch V2 stehen unter der MIT License kostenlos für kommerzielle und Forschungszwecke zur Verfügung
- OpenVoice wird seit Mai 2023 für die sofortige Voice-Cloning-Funktion von myshell.ai eingesetzt und wurde bis November 2023 weltweit zig Millionen Mal genutzt
Welche Voice-Cloning-Funktionen OpenVoice bietet
- OpenVoice ist ein Projekt für sofortiges Voice Cloning
- Das zugehörige Paper ist als arXiv paper veröffentlicht
Kernfunktionen von OpenVoice V1
-
Präzises Klonen der Stimmfarbe
- Die Referenzstimme kann präzise kopiert werden
- Sprache kann in mehreren Sprachen und Akzenten erzeugt werden
-
Flexible Steuerung des Sprechstils
- Emotion und Intonation lassen sich fein granular steuern
- Auch Stilparameter wie Rhythmus, Pausen und Veränderungen der Tonhöhe können gesteuert werden
-
Zero-Shot sprachübergreifendes Voice Cloning
- Weder die Sprache der erzeugten Stimme noch die Sprache der Referenzstimme müssen im groß angelegten mehrsprachigen Multi-Speaker-Trainingsdatensatz enthalten sein
Änderungen in OpenVoice V2
- OpenVoice V2 wurde im April 2024 veröffentlicht
- V2 enthält alle Funktionen von V1
- Durch eine andere Trainingsstrategie wird eine bessere Audioqualität erreicht
- Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch werden nativ unterstützt
- Seit April 2024 sind sowohl V2 als auch V1 unter der MIT License veröffentlicht, sodass die kommerzielle Nutzung kostenlos ist
Reale Nutzung und Umfang der Veröffentlichung
- OpenVoice treibt seit Mai 2023 die sofortige Voice-Cloning-Funktion von myshell.ai an
- Bis November 2023 wurde das Voice-Cloning-Modell weltweit zig Millionen Mal von Nutzerinnen und Nutzern verwendet
- Das README enthält ein Demo-Video
Nutzung, Lizenz und zugrunde liegende Projekte
- Detaillierte Hinweise zur Nutzung finden sich in der usage-Dokumentation des Repositorys
- Allgemeine Fragen und Antworten werden in der QA-Dokumentation des Repositorys behandelt
- OpenVoice V1 und V2 stehen unter der MIT License; sowohl die kommerzielle Nutzung als auch die Nutzung für Forschungszwecke sind kostenlos
- Die Implementierung basiert auf TTS, VITS, VITS2
1 Kommentare
Hacker-News-Kommentare
So etwas ist erst in den letzten Tagen passiert: Die Polizei erklärte, ein Sportdirektor habe per AI einen gefälschten Audioclip erstellt, um den Schulleiter rassistischer Äußerungen zu bezichtigen
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
Natürlich werden die meisten trotzdem keinen Fact-Check machen
Wir treten in eine Zeit ein, in der Gesetzgebung und Durchsetzung sehr schnell aufholen müssen
Gefälschte historische Belege, gefälschte Leaks, gefälschte Unterstützungsbekundungen, gefälschte Werbung – all das wird möglich
Schon bei beliebigen Textposts auf Facetok waren die Leute zu bequem zum Nachprüfen, also dürfte es künftig deutlich schlimmer werden
Ich sage Freunden schon länger, dass man in 5–10 Jahren fast nur noch dem zu nahezu 100 % trauen kann, was direkt vor den eigenen Augen passiert
Man kann sich zwar dafür entscheiden, vertrauenswürdige Medien die Prüfung übernehmen zu lassen, aber wegen der Polarisierung wird ein großer Teil der Welt schon glauben, betrogen worden zu sein, und alles als Fake abtun
Man muss sich nur Sora oder die neuen Sprachmodelle ansehen. Erst vor ein paar Tagen wurde ein Highschool-Sportcoach verhaftet, weil er die Stimme des Schulleiters geklont und ihn schreckliche Dinge sagen lassen haben soll; erwischt wurde er, weil er seine eigene E-Mail benutzt hatte
Kombiniert man das mit Microsofts neuem Phi-mini-Modell, das mit 3,8 Milliarden Parametern an die Leistung von GPT-3.5 herankommt, wird es noch beängstigender. GPT-3.5 hatte 175 Milliarden Parameter, und die Optimierung dieser Technologie läuft erst seit ungefähr fünf Jahren
Ich will aus Mr Bones’ wildem Fahrgeschäft aussteigen
Wie sich das Risiko entfalten wird, dass generative AI Vertrauen zerstört, lässt sich nicht vorhersagen, aber ich bin optimistisch, dass am Ende menschliche Kreativität gewinnt
Mit Übung ist es auch nicht schwer, die Sprechweise anderer Menschen nachzuahmen; Amateure und professionelle Schauspieler machen das ständig
Neu ist nur, dass es einfacher geworden ist, und eigentlich sollte das allen helfen zu verstehen, wie wenig vertrauenswürdig solche „Beweise“ sind
Android und iOS sollten Echtzeit-Stimmverzerrer quasi standardmäßig unterstützen und im Dialer einen schnellen Ausschaltknopf sowie eine Option bieten, sie für Kontakte von Bekannten zu deaktivieren
Es wird sicher Anwendungen geben, die tatsächlich Erschütterungen auslösen, aber der Unterschied zwischen dem, was durch die neue Technik möglich wird, und dem, was ohnehin schon möglich war, ist viel kleiner, als die Leute behaupten
Das ist kein Klonen, sondern eher ein Kopieren der Klangfarbe. Selbst in der Dokumentation steht es so, trotzdem wird es weiterhin Voice Cloning genannt
Ich habe es selbst ausprobiert: Es klang nicht nach meinem üblichen weichen Lancashire-Akzent, sondern amerikanisch, und überhaupt nicht nach mir
VoiceShopAi kann eine junge Stimme in eine alte verwandeln, eine männliche in eine weibliche oder sie mit dem Akzent eines beliebigen Landes versehen
Gefunden habe ich es über https://github.com/metame-ai/awesome-audio-plaza, das neue Einträge im Audiobereich verfolgt
Was wären die legitimen Anwendungsfälle dieser Technologie? Mir fallen hundert Möglichkeiten ein, andere zu täuschen, aber kaum Situationen, in denen man die eigene Stimme klonen oder reproduzieren möchte
Ein Indie-Game-Entwickler könnte damit lebendige NPCs mit jeweils eigenen Stimmen erstellen, deren Dialoge von großen Sprachmodellen gesteuert werden
Bei der Filmproduktion ließen sich mit Zustimmung der Schauspieler bestimmte Zeilen anpassen
Auch für Menschen, die aus gesundheitlichen Gründen nach und nach ihre Stimme verlieren, aber weiter kommunizieren möchten, ist das nötig
Für diese Technologie gibt es eindeutig legitime Anwendungsfälle. Persönlich glaube ich zwar, dass die missbräuchliche Nutzung die legitime überwiegt, aber zu sagen, es gebe keine legitimen Anwendungen, wäre nicht fair
Missbrauch sollte kriminalisiert und streng reguliert werden, aber ein Komplettverbot ist nicht der richtige Weg. Bei Software und kleinen Modellen wäre ein Verbot ohnehin ziemlich schwierig
Auch Hörbücher könnten mit Stimmen für die einzelnen Figuren vorgelesen werden, statt dass ein einzelner Sprecher sich mühsam an Schauspiel versucht
Es wäre auch möglich, eine Rede zu halten, obwohl man erkältet ist, ohne zu husten
Bei Audioübertragung mit geringer Bandbreite könnte man nur Text senden und ihn lokal von einem Sprachmodell wiedergeben lassen
Man könnte es auch nutzen, um mit einem verstorbenen geliebten Menschen zu sprechen
Für Witze oder Comedy wäre es ebenfalls möglich
Wenn man davon ausgeht, dass perfekte Übersetzung nicht böswillig eingesetzt wird, halte ich das für eine immer nützliche und keineswegs böse Anwendung
Wenn man ihm auf Basis alter Aufnahmen seiner früheren Stimme zumindest bis zu einem gewissen Grad „seine“ Stimme zurückgeben könnte, würde er sich sehr darüber freuen
Leider habe ich noch kein Tool gesehen, das ein Sprachmodell erzeugt, das er in Android TTS oder Windows einbinden könnte
Wo sollte man am besten dranbleiben, wenn man dieses Feld weiter verfolgen will? Ich möchte mit solchen Tools kreativ arbeiten, aber meine eigene Stimme eignet sich dafür nicht besonders gut, daher interessiert mich das sehr.
Um es natürlicher zu machen, scheint mir Voice-to-Voice-Konvertierung besser zu sein als Text-to-Speech. Ich habe Tools wie RVC ein wenig ausprobiert, aber ich vermute, dass mir im ganzen KI-Rauschen viele hervorragende Workflows entgehen.
Besonders interessieren mich spannende Workflows und Leute, die mit KI unterhaltsame Dinge bauen.
Hier gibt es ziemlich viel Endzeitstimmung und übertriebenes Drama. Verglichen mit den bisherigen Voice-Cloning-KI-Methoden, die schon seit etwa einem Jahr öffentlich nutzbar sind: Warum ist diese Veröffentlichung so viel schlimmer?
Ich freue mich wirklich auf Hörbücher, die mit der Stimme des Autors gelesen werden dank Voice Cloning.
Natürlich wird es nicht so gut sein, wie wenn der Autor selbst liest, aber in der Stimme des Autors steckt etwas, das ein Sprecher nicht liefern kann. Sprecher klingen in ihrer Aussprache zu allgemein und übertrieben, wodurch ich mich persönlich weniger verbunden fühle.
KI wird das nicht können. Egal wie gut sie wird, sie kann nicht die Gedanken des Autors lesen. Das Ergebnis wird sogar noch allgemeiner sein als bei einem menschlichen Vorleser.
Ein ausgebildeter Sprecher macht das viel besser und kann die Stimme auch an die Stimmung anpassen.
Bei einer Autobiografie ist es in Ordnung, aber in solchen Fällen liest der Autor sie meistens ohnehin selbst.
Wenn es um ein Tool wie Descript ginge, bei dem der Autor nach der Vertonung die Aussprache anpasst, vielleicht. Aber die Stimme des Autors will ich nicht.
Mich würde interessieren, ein Modell mit Allyson Johnsons Stimme zu trainieren, um die Honor-Harrington-Bücher vorlesen zu lassen und die ein oder zwei Spin-off-Bände neu aufzunehmen, in denen ein anderer Sprecher eingesetzt wurde. Dieser Sprecher war furchtbar.
Es könnte auch helfen, in der Wheel-of-Time-Reihe aufzuräumen, wo zwar dieselben zwei Sprecher auftreten, aber von Buch zu Buch die Aussprache mehrerer Namen und Wörter ändern. Besonders auffällig ist „Moghedien“.
Es wird auf mindestens drei Arten ausgesprochen: Mo-gid-e-on, Mo-ga-dean, Mog-a-din.
Außerdem gibt es Zehntausende von Büchern, die ohne KI nie als Audioformat erscheinen würden.
Verwandt: https://github.com/topics/voice-clone
Bisher klang es bei jedem Versuch weder wie meine Zielstimme noch wie die Originalstimme, sondern einfach wie eine zufällige neue Stimme.
Ich sehe ein paar Python-Notebooks, aber Beispielcode im README wäre noch besser gewesen.