OpenVoice: Technologie zum sofortigen Klonen von Stimmen

(github.com/myshell-ai)

5 Punkte von GN⁺ 2024-04-28 | 1 Kommentare | Auf WhatsApp teilen

OpenVoice ist ein Projekt für sofortiges Voice Cloning, das eine Referenzstimme kopiert und Sprache in mehreren Sprachen und Akzenten erzeugt; veröffentlicht wurden die Funktionen von V1 und V2
V1 unterstützt präzises Klonen der Stimmfarbe, die Steuerung von Sprechstilen wie Emotion, Intonation, Rhythmus, Pausen und Tonhöhenverlauf sowie Zero-Shot sprachübergreifendes Voice Cloning
OpenVoice V2 wurde im April 2024 veröffentlicht, enthält die Funktionen von V1 und liefert dank einer anderen Trainingsstrategie eine bessere Audioqualität
V2 unterstützt Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch als native Mehrsprachigkeit; sowohl V1 als auch V2 stehen unter der MIT License kostenlos für kommerzielle und Forschungszwecke zur Verfügung
OpenVoice wird seit Mai 2023 für die sofortige Voice-Cloning-Funktion von myshell.ai eingesetzt und wurde bis November 2023 weltweit zig Millionen Mal genutzt

Welche Voice-Cloning-Funktionen OpenVoice bietet

OpenVoice ist ein Projekt für sofortiges Voice Cloning
Das zugehörige Paper ist als arXiv paper veröffentlicht

Kernfunktionen von OpenVoice V1

Präzises Klonen der Stimmfarbe
- Die Referenzstimme kann präzise kopiert werden
- Sprache kann in mehreren Sprachen und Akzenten erzeugt werden
Flexible Steuerung des Sprechstils
- Emotion und Intonation lassen sich fein granular steuern
- Auch Stilparameter wie Rhythmus, Pausen und Veränderungen der Tonhöhe können gesteuert werden
Zero-Shot sprachübergreifendes Voice Cloning
- Weder die Sprache der erzeugten Stimme noch die Sprache der Referenzstimme müssen im groß angelegten mehrsprachigen Multi-Speaker-Trainingsdatensatz enthalten sein

Änderungen in OpenVoice V2

OpenVoice V2 wurde im April 2024 veröffentlicht
V2 enthält alle Funktionen von V1
Durch eine andere Trainingsstrategie wird eine bessere Audioqualität erreicht
Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch werden nativ unterstützt
Seit April 2024 sind sowohl V2 als auch V1 unter der MIT License veröffentlicht, sodass die kommerzielle Nutzung kostenlos ist

Reale Nutzung und Umfang der Veröffentlichung

OpenVoice treibt seit Mai 2023 die sofortige Voice-Cloning-Funktion von myshell.ai an
Bis November 2023 wurde das Voice-Cloning-Modell weltweit zig Millionen Mal von Nutzerinnen und Nutzern verwendet
Das README enthält ein Demo-Video

Nutzung, Lizenz und zugrunde liegende Projekte

Detaillierte Hinweise zur Nutzung finden sich in der usage-Dokumentation des Repositorys
Allgemeine Fragen und Antworten werden in der QA-Dokumentation des Repositorys behandelt
OpenVoice V1 und V2 stehen unter der MIT License; sowohl die kommerzielle Nutzung als auch die Nutzung für Forschungszwecke sind kostenlos
Die Implementierung basiert auf TTS, VITS, VITS2

1 Kommentare

GN⁺ 2024-04-28

Hacker-News-Kommentare

So etwas ist erst in den letzten Tagen passiert: Die Polizei erklärte, ein Sportdirektor habe per AI einen gefälschten Audioclip erstellt, um den Schulleiter rassistischer Äußerungen zu bezichtigen
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- Genau deshalb muss diese Technologie weit verbreitet und allgemein bekannt werden. Die Leute müssen wachsamer werden, nicht alles glauben und Quellen prüfen
  Natürlich werden die meisten trotzdem keinen Fact-Check machen
Wir treten in eine Zeit ein, in der Gesetzgebung und Durchsetzung sehr schnell aufholen müssen
Gefälschte historische Belege, gefälschte Leaks, gefälschte Unterstützungsbekundungen, gefälschte Werbung – all das wird möglich
Schon bei beliebigen Textposts auf Facetok waren die Leute zu bequem zum Nachprüfen, also dürfte es künftig deutlich schlimmer werden
- Es wirkt wie eine Entwicklung von Hypernormalisierung hin zu Hyperrealität
  Ich sage Freunden schon länger, dass man in 5–10 Jahren fast nur noch dem zu nahezu 100 % trauen kann, was direkt vor den eigenen Augen passiert
  Man kann sich zwar dafür entscheiden, vertrauenswürdige Medien die Prüfung übernehmen zu lassen, aber wegen der Polarisierung wird ein großer Teil der Welt schon glauben, betrogen worden zu sein, und alles als Fake abtun
  Man muss sich nur Sora oder die neuen Sprachmodelle ansehen. Erst vor ein paar Tagen wurde ein Highschool-Sportcoach verhaftet, weil er die Stimme des Schulleiters geklont und ihn schreckliche Dinge sagen lassen haben soll; erwischt wurde er, weil er seine eigene E-Mail benutzt hatte
  Kombiniert man das mit Microsofts neuem Phi-mini-Modell, das mit 3,8 Milliarden Parametern an die Leistung von GPT-3.5 herankommt, wird es noch beängstigender. GPT-3.5 hatte 175 Milliarden Parameter, und die Optimierung dieser Technologie läuft erst seit ungefähr fünf Jahren
  Ich will aus Mr Bones’ wildem Fahrgeschäft aussteigen
- Vertrauen ist eine Abhängigkeit menschlicher Existenz. Es wird nicht nur für Zivilisation gebraucht, sondern auch für sehr kleine Gemeinschaften und den grundlegenden Austausch von Ideen, Waren und Dienstleistungen
  Wie sich das Risiko entfalten wird, dass generative AI Vertrauen zerstört, lässt sich nicht vorhersagen, aber ich bin optimistisch, dass am Ende menschliche Kreativität gewinnt
- Digitale Audiodateien taugen kaum als Beweis für irgendetwas. Auch ohne Voice Cloning kann man Audio schneiden, zusammenfügen und bearbeiten, bis es fast beliebig klingt
  Mit Übung ist es auch nicht schwer, die Sprechweise anderer Menschen nachzuahmen; Amateure und professionelle Schauspieler machen das ständig
  Neu ist nur, dass es einfacher geworden ist, und eigentlich sollte das allen helfen zu verstehen, wie wenig vertrauenswürdig solche „Beweise“ sind
- Auch das ist ein großes Problem, aber das größere ist ein Szenario, in dem ein Spam-Anruf etwa 10 Sekunden meiner Stimme abgreift und dann mit meiner Stimme bei meiner Bank oder meiner Familie anruft
  Android und iOS sollten Echtzeit-Stimmverzerrer quasi standardmäßig unterstützen und im Dialer einen schnellen Ausschaltknopf sowie eine Option bieten, sie für Kontakte von Bekannten zu deaktivieren
- Ich bin zu der Ansicht gekommen, dass die Übertreibungen rund um kriminelle und böswillige Nutzung von AI ähnlich sind wie andere Übertreibungen bei AI-Anwendungen
  Es wird sicher Anwendungen geben, die tatsächlich Erschütterungen auslösen, aber der Unterschied zwischen dem, was durch die neue Technik möglich wird, und dem, was ohnehin schon möglich war, ist viel kleiner, als die Leute behaupten
Das ist kein Klonen, sondern eher ein Kopieren der Klangfarbe. Selbst in der Dokumentation steht es so, trotzdem wird es weiterhin Voice Cloning genannt
Ich habe es selbst ausprobiert: Es klang nicht nach meinem üblichen weichen Lancashire-Akzent, sondern amerikanisch, und überhaupt nicht nach mir
- Mit https://voiceshopai.github.io ließe sich das wohl näher an den ursprünglichen Akzent zurückbringen
  VoiceShopAi kann eine junge Stimme in eine alte verwandeln, eine männliche in eine weibliche oder sie mit dem Akzent eines beliebigen Landes versehen
  Gefunden habe ich es über https://github.com/metame-ai/awesome-audio-plaza, das neue Einträge im Audiobereich verfolgt
- Ich habe es auch mit meiner Stimme versucht, und glücklicherweise klang es überhaupt nicht wie meine Stimme
- Titel oder Name sind nicht besonders gut. Etwas meta betrachtet habe ich manchmal das Gefühl, dass HN-Kommentare heute immer mehr zu Reddit-artigen Reaktionen auf Überschriften werden, statt sich den Originaltext oder die Technik selbst anzusehen
Was wären die legitimen Anwendungsfälle dieser Technologie? Mir fallen hundert Möglichkeiten ein, andere zu täuschen, aber kaum Situationen, in denen man die eigene Stimme klonen oder reproduzieren möchte
- Wenn man einen Podcast aufgenommen hat und nur ein paar Wörter korrigieren will, kann man das nutzen, ohne mühsam neu aufzunehmen
  Ein Indie-Game-Entwickler könnte damit lebendige NPCs mit jeweils eigenen Stimmen erstellen, deren Dialoge von großen Sprachmodellen gesteuert werden
  Bei der Filmproduktion ließen sich mit Zustimmung der Schauspieler bestimmte Zeilen anpassen
  Auch für Menschen, die aus gesundheitlichen Gründen nach und nach ihre Stimme verlieren, aber weiter kommunizieren möchten, ist das nötig
  Für diese Technologie gibt es eindeutig legitime Anwendungsfälle. Persönlich glaube ich zwar, dass die missbräuchliche Nutzung die legitime überwiegt, aber zu sagen, es gebe keine legitimen Anwendungen, wäre nicht fair
  Missbrauch sollte kriminalisiert und streng reguliert werden, aber ein Komplettverbot ist nicht der richtige Weg. Bei Software und kleinen Modellen wäre ein Verbot ohnehin ziemlich schwierig
- Es ist nur eine Frage der Zeit, bis Agenten wie Alexa bessere personalisierte Stimmen verwenden
  Auch Hörbücher könnten mit Stimmen für die einzelnen Figuren vorgelesen werden, statt dass ein einzelner Sprecher sich mühsam an Schauspiel versucht
  Es wäre auch möglich, eine Rede zu halten, obwohl man erkältet ist, ohne zu husten
  Bei Audioübertragung mit geringer Bandbreite könnte man nur Text senden und ihn lokal von einem Sprachmodell wiedergeben lassen
  Man könnte es auch nutzen, um mit einem verstorbenen geliebten Menschen zu sprechen
  Für Witze oder Comedy wäre es ebenfalls möglich
- Es wirkt, als hättest du nicht besonders gründlich darüber nachgedacht. Das Erste, was mir einfiel, ist die Nutzung von Stimmklonen für Echtzeitübersetzung
  Wenn man davon ausgeht, dass perfekte Übersetzung nicht böswillig eingesetzt wird, halte ich das für eine immer nützliche und keineswegs böse Anwendung
- Ich habe einen Freund, dessen Kehlkopf gelähmt ist; zur Kommunikation tippt er oft auf einem Handy oder kleinen Laptop
  Wenn man ihm auf Basis alter Aufnahmen seiner früheren Stimme zumindest bis zu einem gewissen Grad „seine“ Stimme zurückgeben könnte, würde er sich sehr darüber freuen
  Leider habe ich noch kein Tool gesehen, das ein Sprachmodell erzeugt, das er in Android TTS oder Windows einbinden könnte
- Ich spiele viel Counter-Strike, und es ist ziemlich lustig, wenn Leute mit Joe Bidens Stimme das gegnerische Team beschimpfen
Wo sollte man am besten dranbleiben, wenn man dieses Feld weiter verfolgen will? Ich möchte mit solchen Tools kreativ arbeiten, aber meine eigene Stimme eignet sich dafür nicht besonders gut, daher interessiert mich das sehr.
Um es natürlicher zu machen, scheint mir Voice-to-Voice-Konvertierung besser zu sein als Text-to-Speech. Ich habe Tools wie RVC ein wenig ausprobiert, aber ich vermute, dass mir im ganzen KI-Rauschen viele hervorragende Workflows entgehen.
Besonders interessieren mich spannende Workflows und Leute, die mit KI unterhaltsame Dinge bauen.
- Ganz klar Twitter. Alles wird dort angekündigt und diskutiert.
Hier gibt es ziemlich viel Endzeitstimmung und übertriebenes Drama. Verglichen mit den bisherigen Voice-Cloning-KI-Methoden, die schon seit etwa einem Jahr öffentlich nutzbar sind: Warum ist diese Veröffentlichung so viel schlimmer?
Ich freue mich wirklich auf Hörbücher, die mit der Stimme des Autors gelesen werden dank Voice Cloning.
Natürlich wird es nicht so gut sein, wie wenn der Autor selbst liest, aber in der Stimme des Autors steckt etwas, das ein Sprecher nicht liefern kann. Sprecher klingen in ihrer Aussprache zu allgemein und übertrieben, wodurch ich mich persönlich weniger verbunden fühle.
- Was ein Autor zusätzlich einbringt, selbst wenn er kein ausgebildeter Vorleser ist: Die Betonung passt genau dazu, wie die Sätze des Buches gesprochen und verstanden werden sollten.
  KI wird das nicht können. Egal wie gut sie wird, sie kann nicht die Gedanken des Autors lesen. Das Ergebnis wird sogar noch allgemeiner sein als bei einem menschlichen Vorleser.
- Genau das macht mir eher Sorgen. Ich verstehe nicht, warum ein Buch vom Autor gelesen werden sollte.
  Ein ausgebildeter Sprecher macht das viel besser und kann die Stimme auch an die Stimmung anpassen.
  Bei einer Autobiografie ist es in Ordnung, aber in solchen Fällen liest der Autor sie meistens ohnehin selbst.
- Wenn du Hörbuchsprecher zu allgemein findest, habe ich noch schlechtere Nachrichten für dich, was eine auf die Stimme des Autors trainierte KI-Lesung angeht.
- Ich habe kaum den Wunsch, dass meine Bücher vom Autor vorgelesen werden. Der Autor ist jemand, der gut schreibt, und ein Hörbuch besteht nicht einfach darin, die Wörter auf der Seite „vorzulesen“.
  Wenn es um ein Tool wie Descript ginge, bei dem der Autor nach der Vertonung die Aussprache anpasst, vielleicht. Aber die Stimme des Autors will ich nicht.
  Mich würde interessieren, ein Modell mit Allyson Johnsons Stimme zu trainieren, um die Honor-Harrington-Bücher vorlesen zu lassen und die ein oder zwei Spin-off-Bände neu aufzunehmen, in denen ein anderer Sprecher eingesetzt wurde. Dieser Sprecher war furchtbar.
  Es könnte auch helfen, in der Wheel-of-Time-Reihe aufzuräumen, wo zwar dieselben zwei Sprecher auftreten, aber von Buch zu Buch die Aussprache mehrerer Namen und Wörter ändern. Besonders auffällig ist „Moghedien“.
  Es wird auf mindestens drei Arten ausgesprochen: Mo-gid-e-on, Mo-ga-dean, Mog-a-din.
- Es wäre schön, bei jedem Hörbuch eine Auswahl an Sprechern zu haben. Es gibt Sprecher, die ich mag, und andere, die ich absolut nicht hören kann.
  Außerdem gibt es Zehntausende von Büchern, die ohne KI nie als Audioformat erscheinen würden.
Verwandt: https://github.com/topics/voice-clone
- Ich würde gern wissen, ob jemand weiß, welche der Projekte dort tatsächlich funktionieren.
  Bisher klang es bei jedem Versuch weder wie meine Zielstimme noch wie die Originalstimme, sondern einfach wie eine zufällige neue Stimme.
Ich sehe ein paar Python-Notebooks, aber Beispielcode im README wäre noch besser gewesen.

OpenVoice: Technologie zum sofortigen Klonen von Stimmen

Welche Voice-Cloning-Funktionen OpenVoice bietet

Kernfunktionen von OpenVoice V1

Präzises Klonen der Stimmfarbe

Flexible Steuerung des Sprechstils

Zero-Shot sprachübergreifendes Voice Cloning

Änderungen in OpenVoice V2

Reale Nutzung und Umfang der Veröffentlichung

Nutzung, Lizenz und zugrunde liegende Projekte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare