Bark - Transformer-basiertes Text-to-Audio-Modell
(github.com/suno-ai)- Ermöglicht sehr realistische mehrsprachige Sprachgenerierung
- Enthält Musik, Hintergrundgeräusche und einfache Soundeffekte
- Kann auch nonverbale Kommunikation wie Lachen, Seufzen und Weinen darstellen
- Unterstützt Englisch/Koreanisch sowie Deutsch/Französisch/Japanisch/Chinesisch usw.
- Verwendet den EnCodec-Codec von Facebook
- Bark steht unter der CC-BY 4.0 NC-Lizenz, das Suno-Modell selbst kann jedoch kommerziell genutzt werden
2 Kommentare
Barks Generierungen unterscheiden sich manchmal von meinen Prompts. Was ist da los?
Bark ist ein Modell im GPT-Stil. Daher nimmt es sich bei seinen Generierungen mitunter kreative Freiheiten, was im Vergleich zu herkömmlichen Text-to-Speech-Ansätzen zu Modell-Ausgaben mit höherer Varianz führen kann.
Dieser Teil ist beängstigend, haha. Der Grund, warum gelegentlich anders als im Prompt erzeugt wird, soll also die kreative Freiheit des Modells sein..
Erstaunlich, wie gut es Koreanisch erzeugt.