Stabile Audio-Demo
(stability-ai.github.io)Hinweise
- Diese Website funktioniert in Safari möglicherweise nicht richtig; für die beste Erfahrung wird Google Chrome empfohlen.
Stabile Audioerzeugung
- Das Modell kann 44,1-kHz-Stereomusik in verschiedenen Längen erzeugen, darunter beispielsweise Berliner Techno, Rave, Drum Machines, Synthesizer und Musik mit düsterer Atmosphäre.
- Anders als frühere State-of-the-Art-Modelle kann dieses Modell auch 44,1-kHz-Stereo-Soundeffekte erzeugen, etwa das Geräusch einer sich schließenden Tür, vorbeifahrender Sportwagen oder Motorräder, Feuerwerk oder Schritte in einer Höhle.
- Alle Beispiele auf dieser Website wurden mit demselben Modell erzeugt, das sowohl Musik als auch Soundeffekte in 44,1-kHz-Stereo generieren kann.
Langfristige Erzeugung von Stereomusik: Vergleich mit dem Stand der Technik
- Die Klangqualität kann durch den Vergleich dieses Modells mit anderen Modellen bewertet werden, die Musik mit Mandolinenspiel, Pfeifen, Gitarre und Flöte erzeugen.
- Ebenfalls Gegenstand des Vergleichs ist die Erzeugung kommerzieller Musik mit Klaviermelodie, Snare-Rolls, Kick-Pattern, Hi-Hats, Klatschen und einer Lead-Melodie auf dem Synthesizer.
Soundeffekte: Vergleich mit dem Stand der Technik
- Die Klangqualität kann durch den Vergleich dieses Modells mit anderen Modellen bewertet werden, die Klick- und Hochdrehgeräusche eines Motors sowie laut zwitschernde Vögel erzeugen.
- Die ausgewählten Prompts verlangen keine starke Stereo-Bewegung, daher zeigen die Ergebnisse ein relativ wenig räumliches Rendering.
Autoencoder: Rekonstruktion
- Zur Bewertung der Audio-Fidelity werden Originalaufnahmen mit Aufnahmen verglichen, die durch den Autoencoder gelaufen sind.
- Die Rekonstruktion durch den Autoencoder ist dem Original sehr ähnlich und nahezu transparent.
GN⁺-Meinung
- Diese Technologie stellt einen wichtigen Fortschritt im Bereich der Erzeugung von Musik und Soundeffekten dar; besonders hervorzuheben ist die Fähigkeit, hochwertigen Stereo-Sound zu erzeugen.
- Durch den Vergleich mit aktuellen Modellen lässt sich die überlegene Klangqualität dieses Modells objektiv bewerten, weshalb es voraussichtlich ein nützliches Werkzeug für Produzenten von Audioinhalten sein wird.
- Der Vergleich der Rekonstruktion mittels Autoencoder zeigt, dass diese Technologie das Originalaudio sehr präzise wiederherstellen kann, was auf Einsatzmöglichkeiten in Anwendungen hindeutet, die empfindlich auf Klangqualität reagieren.
1 Kommentare
Hacker-News-Kommentar
Ed Newton-Rex kündigte kurz nach der Veröffentlichung von Stable Audio wegen Bedenken hinsichtlich Urheberrecht und Trainingsdaten.
Die Situation aus den 90ern und mit Internet Explorer wiederholt sich, aber diesmal ist es positiv, dass der dominante Browser Open Source ist.
Wie bei Stable Diffusion dürften Text-Prompts der am schwersten kontrollierbare Weg sein, um brauchbare Ausgaben zu erhalten.
Stable Audio ist im Vergleich zu den aktuellen SOTA-Musikmodellen (MusicGen, MusicLM) deutlich überlegen.
Es braucht weiterhin einen Schritt, in dem die AI hochwertige Soundbibliotheken lernt und dann per MIDI die Sounds dieser Bibliotheken auslöst.
Aus Sicht eines Schlagzeugers ist das „Drum Solo“ langweilig, mit seltsamen Klängen durchmischt und noch kein wirklich realistischer Soundeffekt.
Der Code und die Trainingsanweisungen wurden veröffentlicht, das Modell jedoch nicht.
Es ist lustig, festgestellt zu haben, dass das Hinzufügen des Prompts „high quality, stereo“ im Allgemeinen hilft.
Die Idee der Generierung von Soundeffekten war kurz interessant, aber „Fußschritte“ sind sehr schlecht.
Mit dem Prompt „energiegeladene Musik, Violine, Gesang, Orchester, Klavier, Minimalismus, John Adams, Nixon in China“ lässt sich sehr eigenartige und interessante Musik erzeugen.