Überblick über WhisperSpeech
- WhisperSpeech ist ein Open-Source-Text-to-Speech-System, das durch eine rückwärts gerichtete Nachbildung von Whisper entstanden ist.
- Das Modell wurde so entworfen, dass es leistungsstark und zugleich leicht anpassbar ist und sicher für kommerzielle Zwecke verwendet werden kann.
- Das aktuelle Modell wurde auf dem englischen LibreLight-Datensatz trainiert; die nächste Veröffentlichung soll verschiedene Sprachen unterstützen.
Fortschrittsupdate [2024-01-18]
- In der vergangenen Woche lag der Schwerpunkt auf der Optimierung der Inferenzleistung.
- Durch die Integration von
torch.compile, das Hinzufügen von kv-Caching und Anpassungen an einigen Layern läuft es auf einer Consumer-4090 mit einer Geschwindigkeit, die 12-mal schneller als Echtzeit ist.
- Es wurde eine Funktion hinzugefügt, um mehrere Sprachen innerhalb eines einzelnen Satzes zu mischen.
- Außerdem wurde eine Methode ergänzt, mit der sich Voice Cloning leicht testen lässt.
Fortschrittsupdate [2024-01-10]
- Ein neues SD-S2A-Modell wurde veröffentlicht, das schneller ist und zugleich hochwertige Sprache erzeugt.
- Es wurden außerdem Beispiele für Voice Cloning auf Basis von Referenz-Audiodateien hinzugefügt.
Fortschrittsupdate [2023-12-10]
- Drei neue Modelle mit Unterstützung für Englisch und Polnisch wurden hinzugefügt.
- Es gibt neue Sprachbeispiele, und man kann es direkt in Colab ausprobieren.
Download
- Es wird empfohlen, mit dem Google-Colab-Link zu starten oder das bereitgestellte Notebook lokal auszuführen.
- Wer einen manuellen Download bevorzugt oder das Modell von Grund auf trainieren möchte, kann auf HuggingFace die vortrainierten WhisperSpeech-Modelle und die konvertierten Datensätze nutzen.
Roadmap
- Aufbau eines größeren emotionalen Sprachdatensatzes
- Eine Methode finden, um die Generierung abhängig von Emotion und Intonation zu steuern
- Community-getragene Bemühungen schaffen, um frei nutzbare Stimmen in verschiedenen Sprachen zu sammeln
- Training des finalen mehrsprachigen Modells
Architektur
- Verwendet eine allgemeine Architektur, die AudioLM, SPEAR TTS und MusicGen ähnelt.
- Aufgebaut auf leistungsstarken Open-Source-Modellen: OpenAIs Whisper für die Erzeugung semantischer Token und die Transkription, Metas EnCodec für das akustische Modeling und Vocos von Charactr Inc als hochwertiger Vocoder.
Danksagung
- Diese Arbeit wurde durch die Unterstützung von Collabora, LAION und dem Jülich Supercomputing Centre sowie durch die Hilfe einzelner Mitwirkender ermöglicht.
Consulting
- Es kann Unterstützung für Open-Source- und proprietäre AI-Projekte angeboten werden.
Zitate
- Das Projekt stützt sich auf verschiedene hervorragende Open-Source-Projekte und Forschungsarbeiten.
Meinung von GN⁺
- WhisperSpeech ist ein innovatives Open-Source-Projekt im Bereich Sprachsynthese und bietet ein leistungsstarkes Text-to-Speech-Modell, das verschiedene Sprachen unterstützt und sicher für kommerzielle Anwendungen genutzt werden kann.
- Durch den Einsatz modernster Technik erreicht es eine Leistung, die weit über Echtzeit liegt, und bietet einen leicht zugänglichen Weg, fortgeschrittene Funktionen wie Voice Cloning zu testen.
- Das Projekt entwickelt sich communitybasiert weiter und zielt auf eine Ausweitung auf verschiedene Sprachen sowie auf Sprachgenerierung mit emotionalen Elementen ab, sodass erwartet wird, dass es eine wichtige Rolle für die Zukunft der Sprachtechnologie spielen wird.
1 Kommentare
Hacker-News-Kommentare
Whisper-Projekt für mehrsprachige ASR-Modelle
Einschätzung des WhisperSpeech-Entwicklers
Interesse an chinesischer Sprachsynthese
Erwähnung von Mycrofts Mimic 3
Frage zu IPA-basierten Modellen
Beobachtung zum Training benutzerdefinierter Stimmen mit Piper
Bewertung der polnischen Samples
Frage zur Steuerbarkeit von Stimmen
Zweifel an einer Demo, die mit minderwertigen Clips von Winston Churchill trainiert wurde
Positive Bewertung von TTS