- Von Google Research veröffentlichte Arbeit
- Erzeugt Musik, die Textbeschreibungen sehr genau folgt: „Ruhige Violinenmelodie mit einem verzerrten Gitarrenriff im Hintergrund“
- Erzeugt mehrere Minuten lange Musik mit 24 kHz, indem die Aufgabe als hierarchische Sequenz-zu-Sequenz-Modellierung formuliert wird
- Deutlich besser als bestehende Systeme, sowohl bei der Klangqualität als auch bei der Einhaltung der Textbeschreibung
- Kann auch Melodiestile in Form von Pfeifen oder Summen transformieren
- Durch die sequenzielle Eingabe mehrerer Prompts ist auch Audioerzeugung im Story-Modus möglich
- Veröffentlichung des Datensatzes MusicCaps mit 5,5k Musik-Text-Paaren
Noch keine Kommentare.