- Latent-Diffusion-Modell (Latent Diffusion Model)
- Ein Diffusionsmodell, das im latent kodierten Raum eines vortrainierten Autoencoders arbeitet
- Verbessert Trainings- und Inferenzgeschwindigkeit von Diffusionsmodellen erheblich
- Eines der Hauptprobleme bei der Audioerzeugung mit Diffusionsmodellen ist, dass diese in der Regel so trainiert werden, Ausgaben mit fester Größe zu erzeugen
- Wenn auf 30-Sekunden-Audioclips trainiert wird, kann Audio nur in 30-Sekunden-Einheiten erzeugt werden
- Das wird zum Problem, wenn man Audios mit stark variierender Länge trainieren und erzeugen möchte, etwa bei der Generierung kompletter Songs
- Audio-Diffusionsmodelle werden häufig mit zufällig aus langen Audiodateien ausgeschnittenen Audio-Chunks trainiert, die auf die Trainingslänge des Diffusionsmodells zugeschnitten oder aufgefüllt werden
- Bei Musik führt das dazu, dass das Modell dazu neigt, beliebige Songabschnitte zu erzeugen, die mitten in einer musikalischen Phrase beginnen oder enden
- Stable Audio ist ein latentes Diffusionsmodell für Audio, das nicht nur anhand der Länge und Startzeit einer Audiodatei, sondern auch anhand von Text-Metadaten konditioniert wird
- Mit dieser Timing-Steuerung lässt sich Audio mit einer vorgegebenen Länge bis zur Größe des Trainingsfensters erzeugen
- Das Stable-Audio-Modell, das moderne Diffusions-Sampling-Verfahren nutzt, kann 95 Sekunden Stereo-Audio mit 44,1-kHz-Samplerate auf einer NVIDIA A100 GPU in unter einer Sekunde erzeugen
- Entwickelt von Harmonai, dem Generative-Audio-Forschungslabor von Stability AI
- Basiert auf dem in Moûsai verwendeten U-Net-Modell mit 907M (907 Millionen) Parametern
- Das Stable-Audio-Modell wurde mit einem Datensatz aus mehr als 800.000 Audiodateien trainiert, darunter Musik, Soundeffekte und einzelne Instrument-Stems, bereitgestellt vom großen Musikanbieter AudioSparx
- Künftige Arbeiten sollen Modellarchitektur, Datensatz und Trainingsverfahren verbessern, um Ausgabequalität, Steuerbarkeit, Inferenzgeschwindigkeit und Ausgabelänge zu erhöhen
- Harmonai plant, Open-Source-Modelle auf Basis von Stable Audio sowie Trainingscode für das Training von Audio-Generierungsmodellen zu veröffentlichen
1 Kommentare
Hacker-News-Kommentare