10 Punkte von GN⁺ 2024-01-19 | 1 Kommentare | Auf WhatsApp teilen

Überblick über WhisperSpeech

  • WhisperSpeech ist ein Open-Source-Text-to-Speech-System, das durch eine rückwärts gerichtete Nachbildung von Whisper entstanden ist.
  • Das Modell wurde so entworfen, dass es leistungsstark und zugleich leicht anpassbar ist und sicher für kommerzielle Zwecke verwendet werden kann.
  • Das aktuelle Modell wurde auf dem englischen LibreLight-Datensatz trainiert; die nächste Veröffentlichung soll verschiedene Sprachen unterstützen.

Fortschrittsupdate [2024-01-18]

  • In der vergangenen Woche lag der Schwerpunkt auf der Optimierung der Inferenzleistung.
  • Durch die Integration von torch.compile, das Hinzufügen von kv-Caching und Anpassungen an einigen Layern läuft es auf einer Consumer-4090 mit einer Geschwindigkeit, die 12-mal schneller als Echtzeit ist.
  • Es wurde eine Funktion hinzugefügt, um mehrere Sprachen innerhalb eines einzelnen Satzes zu mischen.
  • Außerdem wurde eine Methode ergänzt, mit der sich Voice Cloning leicht testen lässt.

Fortschrittsupdate [2024-01-10]

  • Ein neues SD-S2A-Modell wurde veröffentlicht, das schneller ist und zugleich hochwertige Sprache erzeugt.
  • Es wurden außerdem Beispiele für Voice Cloning auf Basis von Referenz-Audiodateien hinzugefügt.

Fortschrittsupdate [2023-12-10]

  • Drei neue Modelle mit Unterstützung für Englisch und Polnisch wurden hinzugefügt.
  • Es gibt neue Sprachbeispiele, und man kann es direkt in Colab ausprobieren.

Download

  • Es wird empfohlen, mit dem Google-Colab-Link zu starten oder das bereitgestellte Notebook lokal auszuführen.
  • Wer einen manuellen Download bevorzugt oder das Modell von Grund auf trainieren möchte, kann auf HuggingFace die vortrainierten WhisperSpeech-Modelle und die konvertierten Datensätze nutzen.

Roadmap

  • Aufbau eines größeren emotionalen Sprachdatensatzes
  • Eine Methode finden, um die Generierung abhängig von Emotion und Intonation zu steuern
  • Community-getragene Bemühungen schaffen, um frei nutzbare Stimmen in verschiedenen Sprachen zu sammeln
  • Training des finalen mehrsprachigen Modells

Architektur

  • Verwendet eine allgemeine Architektur, die AudioLM, SPEAR TTS und MusicGen ähnelt.
  • Aufgebaut auf leistungsstarken Open-Source-Modellen: OpenAIs Whisper für die Erzeugung semantischer Token und die Transkription, Metas EnCodec für das akustische Modeling und Vocos von Charactr Inc als hochwertiger Vocoder.

Danksagung

  • Diese Arbeit wurde durch die Unterstützung von Collabora, LAION und dem Jülich Supercomputing Centre sowie durch die Hilfe einzelner Mitwirkender ermöglicht.

Consulting

  • Es kann Unterstützung für Open-Source- und proprietäre AI-Projekte angeboten werden.

Zitate

  • Das Projekt stützt sich auf verschiedene hervorragende Open-Source-Projekte und Forschungsarbeiten.

Meinung von GN⁺

  • WhisperSpeech ist ein innovatives Open-Source-Projekt im Bereich Sprachsynthese und bietet ein leistungsstarkes Text-to-Speech-Modell, das verschiedene Sprachen unterstützt und sicher für kommerzielle Anwendungen genutzt werden kann.
  • Durch den Einsatz modernster Technik erreicht es eine Leistung, die weit über Echtzeit liegt, und bietet einen leicht zugänglichen Weg, fortgeschrittene Funktionen wie Voice Cloning zu testen.
  • Das Projekt entwickelt sich communitybasiert weiter und zielt auf eine Ausweitung auf verschiedene Sprachen sowie auf Sprachgenerierung mit emotionalen Elementen ab, sodass erwartet wird, dass es eine wichtige Rolle für die Zukunft der Sprachtechnologie spielen wird.

1 Kommentare

 
GN⁺ 2024-01-19
Hacker-News-Kommentare
  • Whisper-Projekt für mehrsprachige ASR-Modelle

    • Das mehrsprachige ASR-Modell von Whisper wurde mit riesigen Datenmengen trainiert und verfügt über Encoder-Ausgaben, die den semantischen Inhalt von Sprache gut abbilden.
    • Dieser Encoder kann in Modellarchitekturen wie SPEAR-TTS/VALL-E als Open-Source-Ersatz für semantische Encoder verwendet werden.
    • Die vorhergesagten akustischen Tokens werden mit dem Vocos-Vocoder hochgesampelt, entrauscht und verbessert.
    • Der aktuelle Hauptengpass ist der Mangel an Arbeitskraft, um geeignete Datensätze zu beschaffen und zu bereinigen.
  • Einschätzung des WhisperSpeech-Entwicklers

    • Es wurde über mehrere Monate intensiv an Verbesserungen des Modells gearbeitet, dennoch gibt es weiterhin viel Raum für Optimierung.
    • Dank der Unterstützung von Collabora ist es ein echtes Open-Source-Projekt, und man möchte allen helfen, die Verbesserungen oder Integrationen vornehmen wollen.
    • Wer es geschäftlich nutzen möchte, kann Engineering-Support erwerben.
  • Interesse an chinesischer Sprachsynthese

    • Es besteht Interesse an der Leistung chinesischer Sprachsynthese, insbesondere bei Intonation und emotionalem Ausdruck.
    • EmotiVoice ist das bislang qualitativ beste Open-Source-Modell, das man gesehen hat; dafür wurde ein CLI-Wrapper erstellt, um Audio für Lernkarten zu erzeugen.
    • Mit EmotiVoice lässt sich die eigene Stimme per GPU klonen, getestet wurde das aber noch nicht.
  • Erwähnung von Mycrofts Mimic 3

    • Mycrofts Mimic 3 verwendet zwar nicht den neuesten Stand der Technik, ist aber weiterhin beeindruckend und klein genug, um Sprache in Echtzeit auf einem Raspberry Pi zu erzeugen.
    • Einige Stimmen sind besser als andere und liegen auf einem ähnlichen Niveau wie die Beispiele von WhisperSpeech.
  • Frage zu IPA-basierten Modellen

    • Es wird nach Entwicklung und Fortschritt von IPA-basierten Modellen gefragt.
    • Dieser Ansatz könnte nützlich sein, um Stimmen mit anderem Akzent zu erzeugen oder Mehrsprachigkeit zu unterstützen.
    • Bei Modellen wie MBROLA-Stimmen ist dies eingeschränkt möglich, indem Phoneme einer Sprache auf die einer anderen Sprache abgebildet werden.
    • Ein IPA-Ansatz könnte es ermöglichen, Veränderungen in Sprachqualität und Klangfarbe besser zu erlernen.
  • Beobachtung zum Training benutzerdefinierter Stimmen mit Piper

    • Beim Ansehen eines Videos zum Training benutzerdefinierter Stimmen mit Piper fiel auf, dass die für den Datensatz benötigten Metadaten den Text der Quell-Audiodateien betreffen.
    • Die Trainingsmethode von Collabora automatisiert diesen Prozess und benötigt für das Training nur Audiodateien.
  • Bewertung der polnischen Samples

    • Die polnischen Samples sind sehr gut und klingen wie eine Hörbuchaufnahme.
  • Frage zur Steuerbarkeit von Stimmen

    • Es besteht Interesse an der Steuerbarkeit von Stimmen bei der Anwendung von TTS in Chatsystemen.
    • Es werden möglichst viele unterschiedliche Stimmen benötigt, damit jeder Nutzer eine eigene Stimme haben kann.
  • Zweifel an einer Demo, die mit minderwertigen Clips von Winston Churchill trainiert wurde

    • Bei einer Demo, die mit minderwertigen Audioclips trainiert wurde, wird die Frage nach „Garbage in, garbage out“ aufgeworfen.
  • Positive Bewertung von TTS

    • Das ist das beste TTS, das man bisher gehört hat; die Stimme moduliert sich menschenähnlich.