5 Punkte von GN⁺ 2024-04-28 | 1 Kommentare | Auf WhatsApp teilen

Einführung in OpenVoice V1

  • Die Vorteile von OpenVoice sind wie folgt:
    • Präzise Stimmklonung: OpenVoice kann eine Referenzstimme präzise klonen und Sprache in mehreren Sprachen und Akzenten erzeugen.
    • Flexible Steuerung des Sprechstils: OpenVoice ermöglicht eine detaillierte Steuerung von Sprechstil und Rhythmus, Pausen, Intonation sowie weiteren Stilparametern wie Emotion und Betonung.
    • Zero-shot mehrsprachiges Voice Cloning: Weder die Sprache der erzeugten Stimme noch die Sprache der Referenzstimme muss in einem groß angelegten mehrsprachigen Trainingsdatensatz mit vielen Sprechern enthalten sein.

Einführung in OpenVoice V2

  • Im April 2024 wurde OpenVoice V2 veröffentlicht. Es enthält alle Funktionen von V1 und ergänzt sie um folgende Merkmale:
    • Bessere Audioqualität: OpenVoice V2 verwendet eine andere Trainingsstrategie, die eine bessere Audioqualität bietet.
    • Standardmäßige Mehrsprachenunterstützung: Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch werden in OpenVoice V2 standardmäßig unterstützt.
    • Kostenlose kommerzielle Nutzung: Seit April 2024 werden V2 und V1 unter der MIT-Lizenz veröffentlicht und können kostenlos kommerziell genutzt werden.

Nutzung von OpenVoice

  • OpenVoice stellt seit Mai 2023 die Funktion für sofortiges Voice Cloning von myshell.ai bereit.
  • Bis November 2023 wurde das Voice-Cloning-Modell von Nutzern weltweit zig Millionen Male verwendet, und die Plattform verzeichnete ein explosives Nutzerwachstum.

Hauptbeitragende

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

Verwendung

  • Ausführliche Informationen zur Nutzung finden sich unter usage.

Häufige Probleme

  • Häufige Fragen und Antworten finden sich unter QA.
  • Die Liste der Fragen und Antworten wird regelmäßig aktualisiert.

Beteiligung an der Community

  • Tritt der Discord-Community bei und wähle beim Beitritt die Rolle Developer, um exklusiven Zugriff auf Kanäle nur für Entwickler zu erhalten.
  • Lass dir nützliche Diskussionen und Möglichkeiten zur Zusammenarbeit nicht entgehen.

Zitation

  • Diese Implementierung basiert auf einigen hervorragenden Projekten wie TTS, VITS und VITS2.
  • Vielen Dank für ihre großartige Arbeit.

Lizenz

  • OpenVoice V1 und V2 stehen unter der MIT-Lizenz und können sowohl kommerziell als auch für Forschung kostenlos genutzt werden.

Meinung von GN⁺

  • OpenVoice ist ein leistungsstarkes Tool, mit dem sich Stimmen in verschiedenen Sprachen und mit unterschiedlichen Emotionen einfach erzeugen lassen. Es scheint in vielen Bereichen wie Film, Animation und Spielen einsetzbar zu sein.

  • Allerdings birgt die sehr einfache Klonbarkeit von Stimmen auch Missbrauchspotenzial. So könnten zum Beispiel ohne Erlaubnis die Stimmen bekannter Personen für Deepfake-Videos verwendet werden. Es scheint notwendig, entsprechende Gegenmaßnahmen zu schaffen.

  • Zu den kommerziellen Produkten mit ähnlichen Funktionen wie OpenVoice gehören Lyrebird, Resemble.ai und Descript. Sie werden vor allem im Kundensupport, in Callcentern und bei der Video-Synchronisation eingesetzt.

  • Bei der Einführung von OpenVoice sollte auf Datensicherheit und Urheberrechtsfragen geachtet werden. Außerdem sollten die Natürlichkeit der erzeugten Stimme und die Genauigkeit der Aussprache unbedingt überprüft werden.

  • Da es als Open Source veröffentlicht wurde, ist durch die Beteiligung vieler Entwickler eine kontinuierliche Verbesserung der Leistung zu erwarten. Es bleibt spannend, ob es Audioqualität und Funktionen auf dem Niveau kommerzieller Produkte bieten kann.

1 Kommentare

 
GN⁺ 2024-04-28
Hacker-News-Kommentare
  • Kürzlich gab es einen Fall, in dem ein Sporttrainer mit Hilfe von AI einen manipulierten Audioclip mit rassistischen Äußerungen des Schulleiters erstellte, um ihn zu verleumden. Das zeigt, dass Gesetze und Strafverfolgung mit der Entwicklung der AI-Technologie Schritt halten müssen.
  • Es ist zu erwarten, dass Probleme wie gefälschte historische Belege, gefälschte Leaks, gefälschte Unterstützung und gefälschte Werbung noch gravierender werden. In einer Situation, in der nicht einmal einfache Textartikel richtig überprüft werden, dürfte der Schaden durch AI-Technologie noch größer sein.
  • Diese Technologie ahmt nur den Tonfall einer Stimme nach, repliziert aber nicht die tatsächliche Stimme. Das wird in den Unterlagen zwar klargestellt, trotzdem wird sie weiterhin als „Stimmklonen“ bezeichnet, was Verwirrung stiftet.
  • Es ist schwer, legitime Anwendungsfälle für diese Technologie zu finden. Das Missbrauchspotenzial zur Täuschung anderer ist groß.
  • Für Menschen, die mit AI-Technologie interessante Dinge bauen möchten, ist es wichtig, gute Orte zu finden, um relevante Informationen zu bekommen. Das Interesse gilt eher spannenden Workflows und den Menschen dahinter als der AI-Technologie an sich.
  • Im Vergleich zu bereits früher veröffentlichten AI-Technologien zum Stimmklonen scheint diese Veröffentlichung nichts besonders Schlechtes zu haben. Es gibt viel übertriebenen Pessimismus und aufgebauschte Reaktionen.
  • Ich hoffe, dass Stimmklon-Technologie es ermöglicht, Hörbücher mit der Stimme der Autorin oder des Autors selbst zu erstellen. Es wäre zwar nicht so gut wie selbst eingelesen, aber die Stimme der Autorin oder des Autors wäre ansprechender als die eines Sprechers.
  • Es wäre gut, wenn die README Beispielcode enthalten würde.
  • Ich habe versucht, meine eigene Stimme direkt zu „klonen“, aber das Ergebnis klang überhaupt nicht ähnlich. Ich hatte erwartet, meine Stimme auf Französisch sprechen zu hören, aber das war nicht der Fall. Der Titel „sofortiges Stimmklonen“ ist etwas irreführend.