Stable Audio – schnelle zeitgesteuerte Latent Audio Diffusion

Latent-Diffusion-Modell (Latent Diffusion Model)
- Ein Diffusionsmodell, das im latent kodierten Raum eines vortrainierten Autoencoders arbeitet
- Verbessert Trainings- und Inferenzgeschwindigkeit von Diffusionsmodellen erheblich
Eines der Hauptprobleme bei der Audioerzeugung mit Diffusionsmodellen ist, dass diese in der Regel so trainiert werden, Ausgaben mit fester Größe zu erzeugen
- Wenn auf 30-Sekunden-Audioclips trainiert wird, kann Audio nur in 30-Sekunden-Einheiten erzeugt werden
- Das wird zum Problem, wenn man Audios mit stark variierender Länge trainieren und erzeugen möchte, etwa bei der Generierung kompletter Songs
Audio-Diffusionsmodelle werden häufig mit zufällig aus langen Audiodateien ausgeschnittenen Audio-Chunks trainiert, die auf die Trainingslänge des Diffusionsmodells zugeschnitten oder aufgefüllt werden
Bei Musik führt das dazu, dass das Modell dazu neigt, beliebige Songabschnitte zu erzeugen, die mitten in einer musikalischen Phrase beginnen oder enden
Stable Audio ist ein latentes Diffusionsmodell für Audio, das nicht nur anhand der Länge und Startzeit einer Audiodatei, sondern auch anhand von Text-Metadaten konditioniert wird
- Mit dieser Timing-Steuerung lässt sich Audio mit einer vorgegebenen Länge bis zur Größe des Trainingsfensters erzeugen
Das Stable-Audio-Modell, das moderne Diffusions-Sampling-Verfahren nutzt, kann 95 Sekunden Stereo-Audio mit 44,1-kHz-Samplerate auf einer NVIDIA A100 GPU in unter einer Sekunde erzeugen
Entwickelt von Harmonai, dem Generative-Audio-Forschungslabor von Stability AI
Basiert auf dem in Moûsai verwendeten U-Net-Modell mit 907M (907 Millionen) Parametern
Das Stable-Audio-Modell wurde mit einem Datensatz aus mehr als 800.000 Audiodateien trainiert, darunter Musik, Soundeffekte und einzelne Instrument-Stems, bereitgestellt vom großen Musikanbieter AudioSparx
Künftige Arbeiten sollen Modellarchitektur, Datensatz und Trainingsverfahren verbessern, um Ausgabequalität, Steuerbarkeit, Inferenzgeschwindigkeit und Ausgabelänge zu erhöhen
Harmonai plant, Open-Source-Modelle auf Basis von Stable Audio sowie Trainingscode für das Training von Audio-Generierungsmodellen zu veröffentlichen

1 Kommentare

GN⁺ 2023-09-14

Hacker-News-Kommentare

Dieser Artikel diskutiert „Stable Audio“, eine Technik der latenten Audiodiffusion mit schneller zeitlicher Steuerung.
Einige Nutzer bewerteten die erzeugte Solo-Klaviermusik als sauber und interessant und schlugen vor, dass sie sich zur flexibleren Nutzung leicht in Noten umwandeln ließe.
Im Audio- und Visual-Bereich besteht Nachfrage danach, dass KI stärker strukturierte oder symbolische Ausgaben erzeugt, etwa Bild-Layer oder Pinselstriche sowie Arrangement-Spuren in der Musik.
Insbesondere einige Nutzer mit musikalischem Hintergrund zeigten sich von den erzeugten Musikstücken unbeeindruckt und bewerteten sie als repetitiv und fantasielos.
Die Technik könnte Potenzial dafür haben, Hintergrundmusik für Spiele oder andere Anwendungen zu erzeugen, bei denen hochwertige Musik keine Priorität hat.
Ein Nutzer schlug vor, dass diese Technik bei Spotify eingesetzt werden könnte, um Musik passend zum individuellen Geschmack zu erzeugen.
Es besteht Interesse daran, ob das Modell Konzepte von Spatial Audio unterstützt oder „versteht“, zum Beispiel einen Alarmsound, der sich kreisförmig bewegt.
Einige Nutzer äußerten den Wunsch nach einer Technik, die Eingaben wie Melodien, Akkordfolgen oder Performance-Daten annehmen kann, was auf das Potenzial einer neuen Generation von Audio-Tools hindeutet.
Einige Nutzer bemerkten in den Audio-Beispielen einen „Uncanny Valley“-Effekt, womit gemeint ist, dass die Klänge verschwimmen und eine klare musikalische Stimme fehlt.
Trotz dieser Kritik drückten einige Nutzer ihre Dankbarkeit für die Existenz solcher Technologien aus und stellten sie dem früheren Spott von Unternehmen wie Google und Meta gegenüber.

Stable Audio – schnelle zeitgesteuerte Latent Audio Diffusion

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare