5 Punkte von GN⁺ 2024-04-28 | 1 Kommentare | Auf WhatsApp teilen
  • OpenVoice ist ein Projekt für sofortiges Voice Cloning, das eine Referenzstimme kopiert und Sprache in mehreren Sprachen und Akzenten erzeugt; veröffentlicht wurden die Funktionen von V1 und V2
  • V1 unterstützt präzises Klonen der Stimmfarbe, die Steuerung von Sprechstilen wie Emotion, Intonation, Rhythmus, Pausen und Tonhöhenverlauf sowie Zero-Shot sprachübergreifendes Voice Cloning
  • OpenVoice V2 wurde im April 2024 veröffentlicht, enthält die Funktionen von V1 und liefert dank einer anderen Trainingsstrategie eine bessere Audioqualität
  • V2 unterstützt Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch als native Mehrsprachigkeit; sowohl V1 als auch V2 stehen unter der MIT License kostenlos für kommerzielle und Forschungszwecke zur Verfügung
  • OpenVoice wird seit Mai 2023 für die sofortige Voice-Cloning-Funktion von myshell.ai eingesetzt und wurde bis November 2023 weltweit zig Millionen Mal genutzt

Welche Voice-Cloning-Funktionen OpenVoice bietet

  • OpenVoice ist ein Projekt für sofortiges Voice Cloning
  • Das zugehörige Paper ist als arXiv paper veröffentlicht

Kernfunktionen von OpenVoice V1

  • Präzises Klonen der Stimmfarbe

    • Die Referenzstimme kann präzise kopiert werden
    • Sprache kann in mehreren Sprachen und Akzenten erzeugt werden
  • Flexible Steuerung des Sprechstils

    • Emotion und Intonation lassen sich fein granular steuern
    • Auch Stilparameter wie Rhythmus, Pausen und Veränderungen der Tonhöhe können gesteuert werden
  • Zero-Shot sprachübergreifendes Voice Cloning

    • Weder die Sprache der erzeugten Stimme noch die Sprache der Referenzstimme müssen im groß angelegten mehrsprachigen Multi-Speaker-Trainingsdatensatz enthalten sein

Änderungen in OpenVoice V2

  • OpenVoice V2 wurde im April 2024 veröffentlicht
  • V2 enthält alle Funktionen von V1
  • Durch eine andere Trainingsstrategie wird eine bessere Audioqualität erreicht
  • Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch werden nativ unterstützt
  • Seit April 2024 sind sowohl V2 als auch V1 unter der MIT License veröffentlicht, sodass die kommerzielle Nutzung kostenlos ist

Reale Nutzung und Umfang der Veröffentlichung

  • OpenVoice treibt seit Mai 2023 die sofortige Voice-Cloning-Funktion von myshell.ai an
  • Bis November 2023 wurde das Voice-Cloning-Modell weltweit zig Millionen Mal von Nutzerinnen und Nutzern verwendet
  • Das README enthält ein Demo-Video

Nutzung, Lizenz und zugrunde liegende Projekte

  • Detaillierte Hinweise zur Nutzung finden sich in der usage-Dokumentation des Repositorys
  • Allgemeine Fragen und Antworten werden in der QA-Dokumentation des Repositorys behandelt
  • OpenVoice V1 und V2 stehen unter der MIT License; sowohl die kommerzielle Nutzung als auch die Nutzung für Forschungszwecke sind kostenlos
  • Die Implementierung basiert auf TTS, VITS, VITS2

1 Kommentare

 
GN⁺ 2024-04-28
Hacker-News-Kommentare
  • So etwas ist erst in den letzten Tagen passiert: Die Polizei erklärte, ein Sportdirektor habe per AI einen gefälschten Audioclip erstellt, um den Schulleiter rassistischer Äußerungen zu bezichtigen
    https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c

    • Genau deshalb muss diese Technologie weit verbreitet und allgemein bekannt werden. Die Leute müssen wachsamer werden, nicht alles glauben und Quellen prüfen
      Natürlich werden die meisten trotzdem keinen Fact-Check machen
  • Wir treten in eine Zeit ein, in der Gesetzgebung und Durchsetzung sehr schnell aufholen müssen
    Gefälschte historische Belege, gefälschte Leaks, gefälschte Unterstützungsbekundungen, gefälschte Werbung – all das wird möglich
    Schon bei beliebigen Textposts auf Facetok waren die Leute zu bequem zum Nachprüfen, also dürfte es künftig deutlich schlimmer werden

    • Es wirkt wie eine Entwicklung von Hypernormalisierung hin zu Hyperrealität
      Ich sage Freunden schon länger, dass man in 5–10 Jahren fast nur noch dem zu nahezu 100 % trauen kann, was direkt vor den eigenen Augen passiert
      Man kann sich zwar dafür entscheiden, vertrauenswürdige Medien die Prüfung übernehmen zu lassen, aber wegen der Polarisierung wird ein großer Teil der Welt schon glauben, betrogen worden zu sein, und alles als Fake abtun
      Man muss sich nur Sora oder die neuen Sprachmodelle ansehen. Erst vor ein paar Tagen wurde ein Highschool-Sportcoach verhaftet, weil er die Stimme des Schulleiters geklont und ihn schreckliche Dinge sagen lassen haben soll; erwischt wurde er, weil er seine eigene E-Mail benutzt hatte
      Kombiniert man das mit Microsofts neuem Phi-mini-Modell, das mit 3,8 Milliarden Parametern an die Leistung von GPT-3.5 herankommt, wird es noch beängstigender. GPT-3.5 hatte 175 Milliarden Parameter, und die Optimierung dieser Technologie läuft erst seit ungefähr fünf Jahren
      Ich will aus Mr Bones’ wildem Fahrgeschäft aussteigen
    • Vertrauen ist eine Abhängigkeit menschlicher Existenz. Es wird nicht nur für Zivilisation gebraucht, sondern auch für sehr kleine Gemeinschaften und den grundlegenden Austausch von Ideen, Waren und Dienstleistungen
      Wie sich das Risiko entfalten wird, dass generative AI Vertrauen zerstört, lässt sich nicht vorhersagen, aber ich bin optimistisch, dass am Ende menschliche Kreativität gewinnt
    • Digitale Audiodateien taugen kaum als Beweis für irgendetwas. Auch ohne Voice Cloning kann man Audio schneiden, zusammenfügen und bearbeiten, bis es fast beliebig klingt
      Mit Übung ist es auch nicht schwer, die Sprechweise anderer Menschen nachzuahmen; Amateure und professionelle Schauspieler machen das ständig
      Neu ist nur, dass es einfacher geworden ist, und eigentlich sollte das allen helfen zu verstehen, wie wenig vertrauenswürdig solche „Beweise“ sind
    • Auch das ist ein großes Problem, aber das größere ist ein Szenario, in dem ein Spam-Anruf etwa 10 Sekunden meiner Stimme abgreift und dann mit meiner Stimme bei meiner Bank oder meiner Familie anruft
      Android und iOS sollten Echtzeit-Stimmverzerrer quasi standardmäßig unterstützen und im Dialer einen schnellen Ausschaltknopf sowie eine Option bieten, sie für Kontakte von Bekannten zu deaktivieren
    • Ich bin zu der Ansicht gekommen, dass die Übertreibungen rund um kriminelle und böswillige Nutzung von AI ähnlich sind wie andere Übertreibungen bei AI-Anwendungen
      Es wird sicher Anwendungen geben, die tatsächlich Erschütterungen auslösen, aber der Unterschied zwischen dem, was durch die neue Technik möglich wird, und dem, was ohnehin schon möglich war, ist viel kleiner, als die Leute behaupten
  • Das ist kein Klonen, sondern eher ein Kopieren der Klangfarbe. Selbst in der Dokumentation steht es so, trotzdem wird es weiterhin Voice Cloning genannt
    Ich habe es selbst ausprobiert: Es klang nicht nach meinem üblichen weichen Lancashire-Akzent, sondern amerikanisch, und überhaupt nicht nach mir

    • Mit https://voiceshopai.github.io ließe sich das wohl näher an den ursprünglichen Akzent zurückbringen
      VoiceShopAi kann eine junge Stimme in eine alte verwandeln, eine männliche in eine weibliche oder sie mit dem Akzent eines beliebigen Landes versehen
      Gefunden habe ich es über https://github.com/metame-ai/awesome-audio-plaza, das neue Einträge im Audiobereich verfolgt
    • Ich habe es auch mit meiner Stimme versucht, und glücklicherweise klang es überhaupt nicht wie meine Stimme
    • Titel oder Name sind nicht besonders gut. Etwas meta betrachtet habe ich manchmal das Gefühl, dass HN-Kommentare heute immer mehr zu Reddit-artigen Reaktionen auf Überschriften werden, statt sich den Originaltext oder die Technik selbst anzusehen
  • Was wären die legitimen Anwendungsfälle dieser Technologie? Mir fallen hundert Möglichkeiten ein, andere zu täuschen, aber kaum Situationen, in denen man die eigene Stimme klonen oder reproduzieren möchte

    • Wenn man einen Podcast aufgenommen hat und nur ein paar Wörter korrigieren will, kann man das nutzen, ohne mühsam neu aufzunehmen
      Ein Indie-Game-Entwickler könnte damit lebendige NPCs mit jeweils eigenen Stimmen erstellen, deren Dialoge von großen Sprachmodellen gesteuert werden
      Bei der Filmproduktion ließen sich mit Zustimmung der Schauspieler bestimmte Zeilen anpassen
      Auch für Menschen, die aus gesundheitlichen Gründen nach und nach ihre Stimme verlieren, aber weiter kommunizieren möchten, ist das nötig
      Für diese Technologie gibt es eindeutig legitime Anwendungsfälle. Persönlich glaube ich zwar, dass die missbräuchliche Nutzung die legitime überwiegt, aber zu sagen, es gebe keine legitimen Anwendungen, wäre nicht fair
      Missbrauch sollte kriminalisiert und streng reguliert werden, aber ein Komplettverbot ist nicht der richtige Weg. Bei Software und kleinen Modellen wäre ein Verbot ohnehin ziemlich schwierig
    • Es ist nur eine Frage der Zeit, bis Agenten wie Alexa bessere personalisierte Stimmen verwenden
      Auch Hörbücher könnten mit Stimmen für die einzelnen Figuren vorgelesen werden, statt dass ein einzelner Sprecher sich mühsam an Schauspiel versucht
      Es wäre auch möglich, eine Rede zu halten, obwohl man erkältet ist, ohne zu husten
      Bei Audioübertragung mit geringer Bandbreite könnte man nur Text senden und ihn lokal von einem Sprachmodell wiedergeben lassen
      Man könnte es auch nutzen, um mit einem verstorbenen geliebten Menschen zu sprechen
      Für Witze oder Comedy wäre es ebenfalls möglich
    • Es wirkt, als hättest du nicht besonders gründlich darüber nachgedacht. Das Erste, was mir einfiel, ist die Nutzung von Stimmklonen für Echtzeitübersetzung
      Wenn man davon ausgeht, dass perfekte Übersetzung nicht böswillig eingesetzt wird, halte ich das für eine immer nützliche und keineswegs böse Anwendung
    • Ich habe einen Freund, dessen Kehlkopf gelähmt ist; zur Kommunikation tippt er oft auf einem Handy oder kleinen Laptop
      Wenn man ihm auf Basis alter Aufnahmen seiner früheren Stimme zumindest bis zu einem gewissen Grad „seine“ Stimme zurückgeben könnte, würde er sich sehr darüber freuen
      Leider habe ich noch kein Tool gesehen, das ein Sprachmodell erzeugt, das er in Android TTS oder Windows einbinden könnte
    • Ich spiele viel Counter-Strike, und es ist ziemlich lustig, wenn Leute mit Joe Bidens Stimme das gegnerische Team beschimpfen
  • Wo sollte man am besten dranbleiben, wenn man dieses Feld weiter verfolgen will? Ich möchte mit solchen Tools kreativ arbeiten, aber meine eigene Stimme eignet sich dafür nicht besonders gut, daher interessiert mich das sehr.
    Um es natürlicher zu machen, scheint mir Voice-to-Voice-Konvertierung besser zu sein als Text-to-Speech. Ich habe Tools wie RVC ein wenig ausprobiert, aber ich vermute, dass mir im ganzen KI-Rauschen viele hervorragende Workflows entgehen.
    Besonders interessieren mich spannende Workflows und Leute, die mit KI unterhaltsame Dinge bauen.

    • Ganz klar Twitter. Alles wird dort angekündigt und diskutiert.
  • Hier gibt es ziemlich viel Endzeitstimmung und übertriebenes Drama. Verglichen mit den bisherigen Voice-Cloning-KI-Methoden, die schon seit etwa einem Jahr öffentlich nutzbar sind: Warum ist diese Veröffentlichung so viel schlimmer?

  • Ich freue mich wirklich auf Hörbücher, die mit der Stimme des Autors gelesen werden dank Voice Cloning.
    Natürlich wird es nicht so gut sein, wie wenn der Autor selbst liest, aber in der Stimme des Autors steckt etwas, das ein Sprecher nicht liefern kann. Sprecher klingen in ihrer Aussprache zu allgemein und übertrieben, wodurch ich mich persönlich weniger verbunden fühle.

    • Was ein Autor zusätzlich einbringt, selbst wenn er kein ausgebildeter Vorleser ist: Die Betonung passt genau dazu, wie die Sätze des Buches gesprochen und verstanden werden sollten.
      KI wird das nicht können. Egal wie gut sie wird, sie kann nicht die Gedanken des Autors lesen. Das Ergebnis wird sogar noch allgemeiner sein als bei einem menschlichen Vorleser.
    • Genau das macht mir eher Sorgen. Ich verstehe nicht, warum ein Buch vom Autor gelesen werden sollte.
      Ein ausgebildeter Sprecher macht das viel besser und kann die Stimme auch an die Stimmung anpassen.
      Bei einer Autobiografie ist es in Ordnung, aber in solchen Fällen liest der Autor sie meistens ohnehin selbst.
    • Wenn du Hörbuchsprecher zu allgemein findest, habe ich noch schlechtere Nachrichten für dich, was eine auf die Stimme des Autors trainierte KI-Lesung angeht.
    • Ich habe kaum den Wunsch, dass meine Bücher vom Autor vorgelesen werden. Der Autor ist jemand, der gut schreibt, und ein Hörbuch besteht nicht einfach darin, die Wörter auf der Seite „vorzulesen“.
      Wenn es um ein Tool wie Descript ginge, bei dem der Autor nach der Vertonung die Aussprache anpasst, vielleicht. Aber die Stimme des Autors will ich nicht.
      Mich würde interessieren, ein Modell mit Allyson Johnsons Stimme zu trainieren, um die Honor-Harrington-Bücher vorlesen zu lassen und die ein oder zwei Spin-off-Bände neu aufzunehmen, in denen ein anderer Sprecher eingesetzt wurde. Dieser Sprecher war furchtbar.
      Es könnte auch helfen, in der Wheel-of-Time-Reihe aufzuräumen, wo zwar dieselben zwei Sprecher auftreten, aber von Buch zu Buch die Aussprache mehrerer Namen und Wörter ändern. Besonders auffällig ist „Moghedien“.
      Es wird auf mindestens drei Arten ausgesprochen: Mo-gid-e-on, Mo-ga-dean, Mog-a-din.
    • Es wäre schön, bei jedem Hörbuch eine Auswahl an Sprechern zu haben. Es gibt Sprecher, die ich mag, und andere, die ich absolut nicht hören kann.
      Außerdem gibt es Zehntausende von Büchern, die ohne KI nie als Audioformat erscheinen würden.
  • Verwandt: https://github.com/topics/voice-clone

    • Ich würde gern wissen, ob jemand weiß, welche der Projekte dort tatsächlich funktionieren.
      Bisher klang es bei jedem Versuch weder wie meine Zielstimme noch wie die Originalstimme, sondern einfach wie eine zufällige neue Stimme.
  • Ich sehe ein paar Python-Notebooks, aber Beispielcode im README wäre noch besser gewesen.