1 Punkte von GN⁺ 2024-02-14 | 1 Kommentare | Auf WhatsApp teilen
  • Das Stable-Audio-Demo zeigt mit Audiobeispielen, wie ein einzelnes Modell sowohl lange Musikstücke als auch Soundeffekte in 44,1-kHz-Stereo erzeugt
  • Die Musikgenerierung konzentriert sich darauf, allein mit Prompts verschiedene Genres und Stimmungen zu erzeugen, etwa Berlin Techno, uplifting acoustic loop, Disco, Spa-Lobby-Meditation oder Drum-Solo
  • Die Soundeffekte umfassen door slam, sports car, motorbike, fireworks und cave footsteps; dabei werden Formulierungen wie „high-quality, stereo“ gemeinsam im Prompt verwendet
  • Vergleichsbeispiele sind so aufgebaut, dass Ergebnisse von MusicGen-large, MusicGen-stereo, AudioLDM2 und Audiogen-medium anhand von MusicCaps- und AudioCaps-Prompts direkt nebeneinander angehört werden können
  • Beispiele zur Autoencoder-Rekonstruktion ermöglichen durch den Vergleich von Originalaufnahme und verarbeitetem Ergebnis eine Prüfung der Audio-Treue

Stable Audio Demo und Generierungsbeispiele

  • Die Demo-Website funktioniert in Safari möglicherweise nicht korrekt; für die beste Erfahrung wird Google Chrome empfohlen
  • Als ergänzende Materialien werden arXiv, stable-audio-tools und stable-audio-metrics bereitgestellt
    • arXiv: Stable-Audio-Paper
    • stable-audio-tools: Code zur Reproduktion von Stable Audio
    • stable-audio-metrics: Code zur Evaluierung von Stable Audio
  • Das Modell kann lange Stereo-Musik variabler Länge mit 44,1 kHz erzeugen
    • Beispiel-Prompts umfassen Berlin techno, uplifting acoustic loop, disco, calm meditation music und drum solo
    • Einige Prompts spezifizieren zusätzlich BPM, Instrumente, Stimmung, regionalen Stil und ob es sich um einen Loop handelt
  • Dasselbe Modell erzeugt auch Stereo-Soundeffekte mit 44,1 kHz
    • Beispiel-Prompts umfassen door slam, sports car passing by, motorbike passing by, fireworks und reverberant footsteps inside a large rocky cave
    • Bei Soundeffekt-Prompts wurde „high-quality, stereo“ ergänzt; es wird darauf hingewiesen, dass diese Vorgehensweise im Allgemeinen hilfreich ist

Modellvergleich und Autoencoder-Rekonstruktion

  • Der Vergleich langer Musikstücke basiert auf MusicCaps-Prompts
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • Die im Vergleich verwendeten Prompts und Audios wurden in der im Paper berichteten qualitativen Studie eingesetzt
  • Der Vergleich von Soundeffekten verwendet AudioCaps-Prompts
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • Zufällig ausgewählte AudioCaps-Prompts erfordern keine starken Stereo-Bewegungen, daher werden die Ergebnisse relativ wenig räumlich gerendert
  • Der Abschnitt zum Autoencoder bietet Rekonstruktionsvergleiche zur Bewertung der Audio-Treue
    • Links ist die Ground-Truth-Aufnahme angeordnet, rechts das Ergebnis, nachdem die Ground-Truth-Aufnahme durch den Autoencoder verarbeitet wurde
    • Die Rekonstruktion ist fairly transparent und liegt sehr nahe an der Ground Truth

1 Kommentare

 
GN⁺ 2024-02-14
Meinungen auf Hacker News
  • Interessanterweise verließ Ed Newton-Rex, der eingestellt worden war, um Stable Audio zu entwickeln, das Unternehmen kurz nach dem Launch aus Sorge über Urheberrecht und Trainingsdaten.
    Danach gründete er https://www.fairlytrained.org/
    Siehe: https://x.com/ednewtonrex

    • Wenn bei einem generativen Modell die Ersteller die Modellarchitektur nicht offenlegen und es sich um ein Modell handelt, das Text in ein anderes Medium umwandelt, kann man davon ausgehen, dass ein Text-Encoder oder eine ähnliche Funktion, die mit Daten ohne explizite Lizenz trainiert wurde, einen Teil der Arbeit übernimmt.
      Selbst Rechteinhaber mit Bibliotheksbeständen von zig Millionen bis Hunderten Millionen Einträgen, etwa Bild- oder Audioschnipseln, bekommen mit weniger als einer Milliarde Text-Tokens aus großen Repositories nur einen Encoder mit viel zu geringer Leistung für ein Text-zu-Zielmedium-Generierungsmodell. Das gilt auch für Adobes Firefly.
      Es ist ebenfalls ein Missverständnis, dass viele ähnliche Daten in solchen Bibliotheken besonders nützlich seien. Ohne einen starken Text-Encoder erzeugen die meisten Text-zu-Zielmedium-Modelle Ergebnisse, die sehr durchschnittlich aussehen oder klingen.
      Der einfachste Weg, diesen Verdacht auszuräumen, wäre, die Modellarchitektur offenzulegen.
      Selbst wenn all das stimmt: Der eigentliche Grund, warum wir über Diffusionsmodelle sprechen und der Arbeit von Fairly Trained Aufmerksamkeit schenken, ist, dass jemand mit Daten ohne explizite Lizenz trainiert hat.
    • Ihn als „die Person, die eingestellt wurde, um Stable Audio zu bauen“ zu bezeichnen, ist etwas irreführend. Er hatte als VP Product der Audio-Gruppe von Stability eine Führungsposition inne.
      Das ist zwar eine wichtige Rolle, aber „eingestellt, um es zu bauen“ lässt eher an einen Lead Developer oder Forscher denken.
      Dass er ein Gründer mit musikalischem Hintergrund ist, macht seinen Weggang nachvollziehbarer.
    • Eine interessante Interpretation, aber auch eine ziemlich merkwürdige Haltung, denn als er zu Stability kam, war die Trainingsmethode von Stable Diffusion bereits gut bekannt.
    • Auch wenn das Unternehmen es ohnehin getan hätte, hätte man sich das nicht schon überlegen können, bevor man dort anfängt?
      Oder vielleicht war genau das ein nötiger Schritt für sein Geschäftsmodell mit Zertifizierungen.
    • Für die Urheberrechtsbarrieren, auf die Unternehmen beim Training von Modellen stoßen, muss es eine Lösung geben.
      Ich sehe das nicht anders als bei Künstlern, die Musik machen, beeinflusst von der Musik, die sie ihr Leben lang gehört haben. Im Kern ist es genau dasselbe, und Musik oder Kunst lässt sich nicht im Vakuum erschaffen.
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    Fühlt sich an, als wären wir einmal im Kreis zurück in der Internet-Explorer-Ära der 90er. Diesmal ist immerhin anders, dass der dominierende Browser Open Source ist.
    Jemand sollte für Chrome einen animierten GIF-Button mit „Best viewed with Google Chrome“ machen.

  • Wie bei Stable Diffusion dürften Text-Prompts auch bei diesem Modell die am schwersten zu kontrollierende Methode sein, um brauchbare Ausgaben zu erhalten.
    Man kann sich leicht vorstellen, MIDI zusammen mit ControlNet als Eingabe zu verwenden und daraus praktisch einen neuronalen Synthesizer zu machen.

    • Genau. Seit ich vor zwei Jahren an einem AI-Melodieprojekt (https://www.melodies.ai/) gearbeitet habe, dachte ich, dass hochwertige fertige Songs nur aus Text für eine Weile weder realistisch noch wünschenswert sein würden.
      Besser ist es, AI so einzusetzen, dass sie den Prozess von Künstlern in verschiedenen Phasen der Musikproduktion unterstützt.
    • Bei Musik mag das stimmen. Für Soundeffekte halte ich Text-Prompts aber für eine ziemlich gute Benutzeroberfläche.
    • Ideal fände ich, eine Audioaufnahme, in der man eine Melodie summt oder singt, zusammen mit einem Text-Prompt einzugeben, sodass daraus ein ähnlicher Track ausgegeben wird.
    • Es funktioniert gut, wenn man nicht viel Kontrolle braucht. Zum Beispiel ein Prompt wie „Free-Jazz-Solo eines Tenorsaxophonisten, keine Taktart“.
    • Welche anderen Eingaben außer Text-Prompts gibt es bei Stable Diffusion? Meinst du img2img, ControlNet und Ähnliches?
  • Im Vergleich zu den aktuellen Musikmodellen MusicGen und MusicLM ist das hier enorm gut. Es scheint auch eine Produktseite zu geben, die man wie Midjourney per Abo nutzen kann: https://www.stableaudio.com/
    Leider ist es kein Modell mit veröffentlichten Gewichten, und eine API scheint es auch nicht zu geben. Man erzeugt Audio über eine UI im Monatsabo; es ist nicht etwas, das Entwickler integrieren oder wrappen können.

    • Ich wollte Soundeffekte für ein Spiel erstellen, an dem ich arbeite, aber offenbar braucht man dafür eine Enterprise-Lizenz (https://www.stableaudio.com/pricing).
      Ich frage mich, warum das nicht einfach unter die Klausel „kommerzielles Produkt mit weniger als 100.000 monatlich aktiven Nutzern“ fällt, sondern es dafür eine eigene Klausel gibt.
    • Eine CC-lizenzierte Version und eine API sollen bald kommen.
      Das Entwicklungstempo der Modelle ist sehr hoch, daher dürfte es für Musik ein ziemlich großes Jahr werden.
    • Zum Glück kann man auch zu Hause trainieren. Die größere Frage sind die Daten.
  • Ich denke, es braucht noch einen Schritt, bei dem die KI zuerst lernt, wie eine hochwertige Sound-Library klingt, und die erlernten Fähigkeiten anschließend darauf anwendet, die Sounds dieser Library per MIDI auszulösen.
    So bekäme man die Kreativität von Musik-KI und perfekte Audioqualität zugleich.

    • Bei Bildgenerierungs-KI habe ich mir so etwas auch immer gewünscht. Statt dass ein fertiges Bild wie durch Magie iterativ verbessert wird, wäre es viel cooler und interessanter zu sehen, wie eine KI versucht, mit Pinselstrichen ein Bild zu malen oder es zu kolorieren.
      Ich weiß nicht, welche Datensätze oder Architekturen man dafür einsetzen könnte, aber es wäre wirklich spannend.
    • Wie bekäme man per MIDI zum Beispiel eine rau gespielte Gitarre oder das subtile Echo einer Badezimmeraufnahme hin?
    • Ist das nicht das, was suno.ai macht?
  • Ich will die Fortschritte hier nicht kleinreden, beeindruckend ist es schon.
    Aus Sicht eines Drummers gehört ein „Drumsolo“ eher zu den langweiligsten Dingen, und hier sind seltsame Geräusche beigemischt. Am Ende hängt es wohl vom beabsichtigten Publikum ab.
    Nebenbei: Auch die Soundeffekte klingen für meine Ohren derzeit nicht realistisch.
    Trotzdem ist der Fortschritt groß, gute Arbeit.

    • Aus Sicht eines Drummers war dieses „Drumsolo“, wenn man es als etwas betrachtet, das über einem stabilen 4/4-Takt passiert, überraschend interessant anzuhören.
      Durch seine zufällig wirkenden, aber nicht völlig zufälligen Eigenschaften entstehen ziemlich unkonventionelle Rhythmusmuster. Es wäre schön, spontan so synkopieren zu können.
      Bitte nicht darum bitten, das als Noten aufzuschreiben.
      Die Tempokonstanz ist hervorragend. Das unnötige Rauschen und das zufällige Nachklingen der Becken zeigen allerdings die Grenzen des Modells.
    • Es ist zwar ein beeindruckender Versuch, aber noch weit davon entfernt, tatsächlich brauchbare Musik oder Sounds zu erzeugen.
      Es gibt bereits Millionen von Library-Music-Tracks und Soundeffekten, die deutlich besser klingen. Um damit zu konkurrieren, wären enorme Investitionen in generative KI nötig, und anders als bei Text oder Bildern sehe ich da keine wirtschaftliche Tragfähigkeit.
    • Ich war noch enttäuschter, weil den Musikbeispielen Übergänge fehlen. Die meisten Stücke haben Modulationen oder Percussion-Übergänge.
    • Das Drumsolo zeigt gut, wie sehr dieses Modell den Kern eines Drumsolos verfehlt. Ich bin kein Drummer, aber es macht überhaupt keinen Spaß, zuzuhören.
      Es klingt ungefähr wie jemand, der grob im Tempo willkürlich auf Schlagzeug herumhaut.
      Dinge wie Fahrstuhlmusik bekommt es allerdings halbwegs hin, was auch zu erwarten war.
  • Interessant ist, dass sie Code und eine einsteigerfreundliche Anleitung fürs Training veröffentlichen, aber nicht das Modell.
    Das ist fast so, als würden sie anonyme Leute anflehen, den Data Loader mit ihrem Apple-Music-Konto zu verbinden und ihn nach Herzenslust laufen zu lassen. Natürlich schlägt niemand vor, das zu tun.

    • Meine Vermutung: In den Bedingungen, unter denen sie AudioSparx’ lizenzierte Stock-Audio-Library zum Training bekommen haben, stand möglicherweise eine Klausel, die die Weiterverbreitung des resultierenden Modells untersagt.
  • Die Idee der Soundeffekt-Generierung hat mich kurz hoffen lassen, aber diese „Schritte“ sind unglaublich schlecht.

    • Ich habe auf stableaudio.com Musikgenerierung ausprobiert, und ja, sie ist schlecht. Aber die Entwicklung solcher Modelle ist so schnell, dass es mich nicht wundern würde, wenn sie in ein bis zwei Jahren erstaunlich gut sind.
  • Stimmt es, dass es keine veröffentlichten Gewichte gibt? Es ist schwer zu finden, was dazu gesagt wird.
    Edit: Ah, mir war nicht klar, dass das ein kontroverser Kommentar sein würde. Es wäre nett gewesen, die Frage zu beantworten, bevor man runtervotet, aber gut.

  • „Bei Soundeffekt-Prompts hängen wir normalerweise ‘high-quality, stereo’ an, weil das oft hilft.“
    Es ist schon lustig, dass man festgestellt hat: Wenn man einem LLM einfach höflich sagt, es solle bessere Ergebnisse liefern, wird die Ausgabe besser.

    • Manchmal möchte man vielleicht den Klang einer alten Kassette oder einer noch älteren, verkratzten 78-rpm-Platte.
      Wie immer machen Computer nicht das, was wir beabsichtigen, sondern das, worum wir gebeten haben.