Bark - Transformer-basiertes Text-to-Audio-Modell

xguru · 2023-04-24T09:35:19+09:00

Ermöglicht sehr realistische mehrsprachige Sprachgenerierung Enthält Musik, Hintergrundgeräusche und einfache Soundeffekte Kann auch nonverbale Kommunikation wie Lachen, Seufzen und Weinen darstellen Unterstützt Englisch/Koreanisch sowie Deutsch/Französisch/Japanisch/Chinesisch usw. Verwendet den EnCodec-Codec von Facebook Bark steht unter der CC-BY 4.0 NC-Lizenz, das Suno-Modell selbst kann jedoch kommerziell genutzt werden

(github.com/suno-ai)

24 Punkte von xguru 2023-04-24 | 2 Kommentare | Auf WhatsApp teilen

Ermöglicht sehr realistische mehrsprachige Sprachgenerierung
Enthält Musik, Hintergrundgeräusche und einfache Soundeffekte
Kann auch nonverbale Kommunikation wie Lachen, Seufzen und Weinen darstellen
Unterstützt Englisch/Koreanisch sowie Deutsch/Französisch/Japanisch/Chinesisch usw.
Verwendet den EnCodec-Codec von Facebook
Bark steht unter der CC-BY 4.0 NC-Lizenz, das Suno-Modell selbst kann jedoch kommerziell genutzt werden

2 Kommentare

dlehals2 2023-04-24

Barks Generierungen unterscheiden sich manchmal von meinen Prompts. Was ist da los?
Bark ist ein Modell im GPT-Stil. Daher nimmt es sich bei seinen Generierungen mitunter kreative Freiheiten, was im Vergleich zu herkömmlichen Text-to-Speech-Ansätzen zu Modell-Ausgaben mit höherer Varianz führen kann.

Dieser Teil ist beängstigend, haha. Der Grund, warum gelegentlich anders als im Prompt erzeugt wird, soll also die kreative Freiheit des Modells sein..

kuroneko 2023-04-24

Erstaunlich, wie gut es Koreanisch erzeugt.

Bark - Transformer-basiertes Text-to-Audio-Modell

Verwandte Beiträge

2 Kommentare