Stable Audio Demo
(stability-ai.github.io)- Das Stable-Audio-Demo zeigt mit Audiobeispielen, wie ein einzelnes Modell sowohl lange Musikstücke als auch Soundeffekte in 44,1-kHz-Stereo erzeugt
- Die Musikgenerierung konzentriert sich darauf, allein mit Prompts verschiedene Genres und Stimmungen zu erzeugen, etwa Berlin Techno, uplifting acoustic loop, Disco, Spa-Lobby-Meditation oder Drum-Solo
- Die Soundeffekte umfassen door slam, sports car, motorbike, fireworks und cave footsteps; dabei werden Formulierungen wie „high-quality, stereo“ gemeinsam im Prompt verwendet
- Vergleichsbeispiele sind so aufgebaut, dass Ergebnisse von MusicGen-large, MusicGen-stereo, AudioLDM2 und Audiogen-medium anhand von MusicCaps- und AudioCaps-Prompts direkt nebeneinander angehört werden können
- Beispiele zur Autoencoder-Rekonstruktion ermöglichen durch den Vergleich von Originalaufnahme und verarbeitetem Ergebnis eine Prüfung der Audio-Treue
Stable Audio Demo und Generierungsbeispiele
- Die Demo-Website funktioniert in Safari möglicherweise nicht korrekt; für die beste Erfahrung wird Google Chrome empfohlen
- Als ergänzende Materialien werden
arXiv,stable-audio-toolsundstable-audio-metricsbereitgestelltarXiv: Stable-Audio-Paperstable-audio-tools: Code zur Reproduktion von Stable Audiostable-audio-metrics: Code zur Evaluierung von Stable Audio
- Das Modell kann lange Stereo-Musik variabler Länge mit 44,1 kHz erzeugen
- Beispiel-Prompts umfassen Berlin techno, uplifting acoustic loop, disco, calm meditation music und drum solo
- Einige Prompts spezifizieren zusätzlich BPM, Instrumente, Stimmung, regionalen Stil und ob es sich um einen Loop handelt
- Dasselbe Modell erzeugt auch Stereo-Soundeffekte mit 44,1 kHz
- Beispiel-Prompts umfassen door slam, sports car passing by, motorbike passing by, fireworks und reverberant footsteps inside a large rocky cave
- Bei Soundeffekt-Prompts wurde „high-quality, stereo“ ergänzt; es wird darauf hingewiesen, dass diese Vorgehensweise im Allgemeinen hilfreich ist
Modellvergleich und Autoencoder-Rekonstruktion
- Der Vergleich langer Musikstücke basiert auf MusicCaps-Prompts
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- Die im Vergleich verwendeten Prompts und Audios wurden in der im Paper berichteten qualitativen Studie eingesetzt
- Der Vergleich von Soundeffekten verwendet AudioCaps-Prompts
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- Zufällig ausgewählte AudioCaps-Prompts erfordern keine starken Stereo-Bewegungen, daher werden die Ergebnisse relativ wenig räumlich gerendert
- Der Abschnitt zum Autoencoder bietet Rekonstruktionsvergleiche zur Bewertung der Audio-Treue
- Links ist die Ground-Truth-Aufnahme angeordnet, rechts das Ergebnis, nachdem die Ground-Truth-Aufnahme durch den Autoencoder verarbeitet wurde
- Die Rekonstruktion ist fairly transparent und liegt sehr nahe an der Ground Truth
1 Kommentare
Meinungen auf Hacker News
Interessanterweise verließ Ed Newton-Rex, der eingestellt worden war, um Stable Audio zu entwickeln, das Unternehmen kurz nach dem Launch aus Sorge über Urheberrecht und Trainingsdaten.
Danach gründete er https://www.fairlytrained.org/
Siehe: https://x.com/ednewtonrex
Selbst Rechteinhaber mit Bibliotheksbeständen von zig Millionen bis Hunderten Millionen Einträgen, etwa Bild- oder Audioschnipseln, bekommen mit weniger als einer Milliarde Text-Tokens aus großen Repositories nur einen Encoder mit viel zu geringer Leistung für ein Text-zu-Zielmedium-Generierungsmodell. Das gilt auch für Adobes Firefly.
Es ist ebenfalls ein Missverständnis, dass viele ähnliche Daten in solchen Bibliotheken besonders nützlich seien. Ohne einen starken Text-Encoder erzeugen die meisten Text-zu-Zielmedium-Modelle Ergebnisse, die sehr durchschnittlich aussehen oder klingen.
Der einfachste Weg, diesen Verdacht auszuräumen, wäre, die Modellarchitektur offenzulegen.
Selbst wenn all das stimmt: Der eigentliche Grund, warum wir über Diffusionsmodelle sprechen und der Arbeit von Fairly Trained Aufmerksamkeit schenken, ist, dass jemand mit Daten ohne explizite Lizenz trainiert hat.
Das ist zwar eine wichtige Rolle, aber „eingestellt, um es zu bauen“ lässt eher an einen Lead Developer oder Forscher denken.
Dass er ein Gründer mit musikalischem Hintergrund ist, macht seinen Weggang nachvollziehbarer.
Oder vielleicht war genau das ein nötiger Schritt für sein Geschäftsmodell mit Zertifizierungen.
Ich sehe das nicht anders als bei Künstlern, die Musik machen, beeinflusst von der Musik, die sie ihr Leben lang gehört haben. Im Kern ist es genau dasselbe, und Musik oder Kunst lässt sich nicht im Vakuum erschaffen.
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.Fühlt sich an, als wären wir einmal im Kreis zurück in der Internet-Explorer-Ära der 90er. Diesmal ist immerhin anders, dass der dominierende Browser Open Source ist.
Jemand sollte für Chrome einen animierten GIF-Button mit „Best viewed with Google Chrome“ machen.
Button ansehen: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Wie bei Stable Diffusion dürften Text-Prompts auch bei diesem Modell die am schwersten zu kontrollierende Methode sein, um brauchbare Ausgaben zu erhalten.
Man kann sich leicht vorstellen, MIDI zusammen mit ControlNet als Eingabe zu verwenden und daraus praktisch einen neuronalen Synthesizer zu machen.
Besser ist es, AI so einzusetzen, dass sie den Prozess von Künstlern in verschiedenen Phasen der Musikproduktion unterstützt.
Im Vergleich zu den aktuellen Musikmodellen MusicGen und MusicLM ist das hier enorm gut. Es scheint auch eine Produktseite zu geben, die man wie Midjourney per Abo nutzen kann: https://www.stableaudio.com/
Leider ist es kein Modell mit veröffentlichten Gewichten, und eine API scheint es auch nicht zu geben. Man erzeugt Audio über eine UI im Monatsabo; es ist nicht etwas, das Entwickler integrieren oder wrappen können.
Ich frage mich, warum das nicht einfach unter die Klausel „kommerzielles Produkt mit weniger als 100.000 monatlich aktiven Nutzern“ fällt, sondern es dafür eine eigene Klausel gibt.
Das Entwicklungstempo der Modelle ist sehr hoch, daher dürfte es für Musik ein ziemlich großes Jahr werden.
Ich denke, es braucht noch einen Schritt, bei dem die KI zuerst lernt, wie eine hochwertige Sound-Library klingt, und die erlernten Fähigkeiten anschließend darauf anwendet, die Sounds dieser Library per MIDI auszulösen.
So bekäme man die Kreativität von Musik-KI und perfekte Audioqualität zugleich.
Ich weiß nicht, welche Datensätze oder Architekturen man dafür einsetzen könnte, aber es wäre wirklich spannend.
Ich will die Fortschritte hier nicht kleinreden, beeindruckend ist es schon.
Aus Sicht eines Drummers gehört ein „Drumsolo“ eher zu den langweiligsten Dingen, und hier sind seltsame Geräusche beigemischt. Am Ende hängt es wohl vom beabsichtigten Publikum ab.
Nebenbei: Auch die Soundeffekte klingen für meine Ohren derzeit nicht realistisch.
Trotzdem ist der Fortschritt groß, gute Arbeit.
Durch seine zufällig wirkenden, aber nicht völlig zufälligen Eigenschaften entstehen ziemlich unkonventionelle Rhythmusmuster. Es wäre schön, spontan so synkopieren zu können.
Bitte nicht darum bitten, das als Noten aufzuschreiben.
Die Tempokonstanz ist hervorragend. Das unnötige Rauschen und das zufällige Nachklingen der Becken zeigen allerdings die Grenzen des Modells.
Es gibt bereits Millionen von Library-Music-Tracks und Soundeffekten, die deutlich besser klingen. Um damit zu konkurrieren, wären enorme Investitionen in generative KI nötig, und anders als bei Text oder Bildern sehe ich da keine wirtschaftliche Tragfähigkeit.
Es klingt ungefähr wie jemand, der grob im Tempo willkürlich auf Schlagzeug herumhaut.
Dinge wie Fahrstuhlmusik bekommt es allerdings halbwegs hin, was auch zu erwarten war.
Interessant ist, dass sie Code und eine einsteigerfreundliche Anleitung fürs Training veröffentlichen, aber nicht das Modell.
Das ist fast so, als würden sie anonyme Leute anflehen, den Data Loader mit ihrem Apple-Music-Konto zu verbinden und ihn nach Herzenslust laufen zu lassen. Natürlich schlägt niemand vor, das zu tun.
Die Idee der Soundeffekt-Generierung hat mich kurz hoffen lassen, aber diese „Schritte“ sind unglaublich schlecht.
Stimmt es, dass es keine veröffentlichten Gewichte gibt? Es ist schwer zu finden, was dazu gesagt wird.
Edit: Ah, mir war nicht klar, dass das ein kontroverser Kommentar sein würde. Es wäre nett gewesen, die Frage zu beantworten, bevor man runtervotet, aber gut.
Siehe: https://github.com/Stability-AI/stable-audio-tools
„Bei Soundeffekt-Prompts hängen wir normalerweise ‘high-quality, stereo’ an, weil das oft hilft.“
Es ist schon lustig, dass man festgestellt hat: Wenn man einem LLM einfach höflich sagt, es solle bessere Ergebnisse liefern, wird die Ausgabe besser.
Wie immer machen Computer nicht das, was wir beabsichtigen, sondern das, worum wir gebeten haben.