5 Punkte von GN⁺ 2023-09-14 | 1 Kommentare | Auf WhatsApp teilen
  • Latent-Diffusion-Modell (Latent Diffusion Model)
    • Ein Diffusionsmodell, das im latent kodierten Raum eines vortrainierten Autoencoders arbeitet
    • Verbessert Trainings- und Inferenzgeschwindigkeit von Diffusionsmodellen erheblich
  • Eines der Hauptprobleme bei der Audioerzeugung mit Diffusionsmodellen ist, dass diese in der Regel so trainiert werden, Ausgaben mit fester Größe zu erzeugen
    • Wenn auf 30-Sekunden-Audioclips trainiert wird, kann Audio nur in 30-Sekunden-Einheiten erzeugt werden
    • Das wird zum Problem, wenn man Audios mit stark variierender Länge trainieren und erzeugen möchte, etwa bei der Generierung kompletter Songs
  • Audio-Diffusionsmodelle werden häufig mit zufällig aus langen Audiodateien ausgeschnittenen Audio-Chunks trainiert, die auf die Trainingslänge des Diffusionsmodells zugeschnitten oder aufgefüllt werden
  • Bei Musik führt das dazu, dass das Modell dazu neigt, beliebige Songabschnitte zu erzeugen, die mitten in einer musikalischen Phrase beginnen oder enden
  • Stable Audio ist ein latentes Diffusionsmodell für Audio, das nicht nur anhand der Länge und Startzeit einer Audiodatei, sondern auch anhand von Text-Metadaten konditioniert wird
    • Mit dieser Timing-Steuerung lässt sich Audio mit einer vorgegebenen Länge bis zur Größe des Trainingsfensters erzeugen
  • Das Stable-Audio-Modell, das moderne Diffusions-Sampling-Verfahren nutzt, kann 95 Sekunden Stereo-Audio mit 44,1-kHz-Samplerate auf einer NVIDIA A100 GPU in unter einer Sekunde erzeugen
  • Entwickelt von Harmonai, dem Generative-Audio-Forschungslabor von Stability AI
  • Basiert auf dem in Moûsai verwendeten U-Net-Modell mit 907M (907 Millionen) Parametern
  • Das Stable-Audio-Modell wurde mit einem Datensatz aus mehr als 800.000 Audiodateien trainiert, darunter Musik, Soundeffekte und einzelne Instrument-Stems, bereitgestellt vom großen Musikanbieter AudioSparx
  • Künftige Arbeiten sollen Modellarchitektur, Datensatz und Trainingsverfahren verbessern, um Ausgabequalität, Steuerbarkeit, Inferenzgeschwindigkeit und Ausgabelänge zu erhöhen
  • Harmonai plant, Open-Source-Modelle auf Basis von Stable Audio sowie Trainingscode für das Training von Audio-Generierungsmodellen zu veröffentlichen

1 Kommentare

 
GN⁺ 2023-09-14
Hacker-News-Kommentare
  • Dieser Artikel diskutiert „Stable Audio“, eine Technik der latenten Audiodiffusion mit schneller zeitlicher Steuerung.
  • Einige Nutzer bewerteten die erzeugte Solo-Klaviermusik als sauber und interessant und schlugen vor, dass sie sich zur flexibleren Nutzung leicht in Noten umwandeln ließe.
  • Im Audio- und Visual-Bereich besteht Nachfrage danach, dass KI stärker strukturierte oder symbolische Ausgaben erzeugt, etwa Bild-Layer oder Pinselstriche sowie Arrangement-Spuren in der Musik.
  • Insbesondere einige Nutzer mit musikalischem Hintergrund zeigten sich von den erzeugten Musikstücken unbeeindruckt und bewerteten sie als repetitiv und fantasielos.
  • Die Technik könnte Potenzial dafür haben, Hintergrundmusik für Spiele oder andere Anwendungen zu erzeugen, bei denen hochwertige Musik keine Priorität hat.
  • Ein Nutzer schlug vor, dass diese Technik bei Spotify eingesetzt werden könnte, um Musik passend zum individuellen Geschmack zu erzeugen.
  • Es besteht Interesse daran, ob das Modell Konzepte von Spatial Audio unterstützt oder „versteht“, zum Beispiel einen Alarmsound, der sich kreisförmig bewegt.
  • Einige Nutzer äußerten den Wunsch nach einer Technik, die Eingaben wie Melodien, Akkordfolgen oder Performance-Daten annehmen kann, was auf das Potenzial einer neuen Generation von Audio-Tools hindeutet.
  • Einige Nutzer bemerkten in den Audio-Beispielen einen „Uncanny Valley“-Effekt, womit gemeint ist, dass die Klänge verschwimmen und eine klare musikalische Stimme fehlt.
  • Trotz dieser Kritik drückten einige Nutzer ihre Dankbarkeit für die Existenz solcher Technologien aus und stellten sie dem früheren Spott von Unternehmen wie Google und Meta gegenüber.