Stable Audio 2.0

(stability.ai)

7 Punkte von GN⁺ 2024-04-06 | 1 Kommentare | Auf WhatsApp teilen

Stable Audio 2.0 setzt einen neuen Standard für KI-generierte hochwertige vollständige Tracks mit einer Länge von bis zu 3 Minuten in 44,1-kHz-Stereo
Führt eine Audio-to-Audio-Generierungsfunktion ein, mit der Nutzer Samples hochladen und sie mithilfe natürlicher Sprachprompts transformieren können
Wurde ausschließlich mit einem von der AudioSparx-Musikbibliothek lizenzierten Datensatz trainiert, respektiert Opt-out-Anfragen von Kreativen und gewährleistet eine faire Vergütung
Auf der Stable-Audio-Website kann man das Modell erkunden und kostenlos mit dem Erstellen beginnen

Neue Funktionen

Es können Songs mit einer Länge von bis zu 3 Minuten generiert werden, einschließlich strukturierter Kompositionen mit Intro, Entwicklung und Outro sowie Stereo-Soundeffekten
Audio-to-Audio-Generierung : Unterstützt das Hochladen von Audiodateien, um Ideen in vollständig produzierte Samples zu verwandeln. Die Nutzungsbedingungen verlangen, dass nur nicht urheberrechtlich geschütztes Material hochgeladen wird, und zur Vermeidung von Urheberrechtsverletzungen wird fortschrittliche Inhaltserkennung eingesetzt
Variationen und Soundeffekt-Erzeugung : Erweitert die Produktion verschiedenster Sounds und Audioeffekte – vom Tastaturtippen über jubelnde Menschenmengen bis zum Summen städtischer Straßen
Stilwechsel : Neu generiertes oder hochgeladenes Audio kann innerhalb des Generierungsprozesses nahtlos angepasst werden, um es an den spezifischen Stil und Ton eines Projekts anzupassen

Die latente Diffusionsmodell-Architektur von Stable Audio 2.0 wurde so entworfen, dass sie die strukturierte Generierung vollständiger Tracks ermöglicht
Dafür wurden alle Komponenten des Systems auf Leistungsverbesserungen über lange Zeiträume hinweg abgestimmt
Ein neuer, stark komprimierender Autoencoder komprimiert rohe Audio-Wellenformen in deutlich kürzere Repräsentationen
Ein Diffusion Transformer (DiT) wird anstelle des bisherigen U-Net verwendet und ist geschickter darin, Daten über lange Sequenzen hinweg zu verarbeiten

Wie schon das Modell 1.0 wurde auch 2.0 mit AudioSparx-Daten trainiert, die mehr als 800.000 Musikstücke, Soundeffekte, Stem-Dateien einzelner Instrumente und die zugehörigen Textmetadaten umfassen
Alle Artists bei AudioSparx haben die Möglichkeit, sich vom Training der Stable-Audio-Modelle abzumelden
Zum Schutz der Rechte von Urheberrechtsinhabern arbeitet das Unternehmen beim Hochladen von Audio mit AudibleMagic zusammen und nutzt deren Content-Recognition-(ACR)-Technologie, um durch Echtzeit-Abgleich von Inhalten Urheberrechtsverletzungen zu verhindern

Stable Radio ist ein 24/7-Livestream, der ausschließlich Tracks von Stable Audio präsentiert, und wird auf dem Stable-Audio-YouTube-Kanal gestreamt
Auf der Stable-Audio-Website kann man das Modell erkunden und kostenlos mit dem Erstellen beginnen.

Stable Audio 2.0 hat das Potenzial, die Musikindustrie zu verändern, indem es Musikschaffenden ein KI-gestütztes Kreativwerkzeug bietet. Die Fähigkeit, Nutzerabsichten über natürliche Sprachverarbeitung zu erfassen und in Musik umzusetzen, kann den kreativen Prozess vereinfachen und mehr Menschen die Teilnahme an der Musikproduktion ermöglichen.
Eines der Probleme, die diese Technologie mit sich bringen könnte, ist das Urheberrecht. Auch wenn das Unternehmen angibt, Maßnahmen zur Verhinderung von Urheberrechtsverletzungen zu ergreifen, bleiben die rechtlichen Fragen rund um die Eigentümerschaft an KI-generierten Inhalten weiterhin komplex.
Ein Aspekt, der bei der Einführung von KI in die Musikproduktion berücksichtigt werden sollte, ist die Wahrnehmung von Originalität und Kunstfertigkeit KI-generierter Musik. Es braucht eine Diskussion darüber, ob KI menschliche Kreativität nachahmen oder ersetzen kann und welche Auswirkungen das auf die Musikindustrie haben wird.
Zu den Vorteilen der Nutzung von KI-Musikgenerierungstools zählen eine kürzere Produktionszeit, Experimente mit verschiedenen Musikstilen und Genres sowie die Möglichkeit, Musik zu erstellen, auch ohne tiefgehende Kenntnisse in Musiktheorie oder Instrumentalspiel.
Betrachtet man die möglichen positiven Auswirkungen dieser Technologie auf die Musikausbildung, könnte sie Studierenden helfen, verschiedene Musikstile und Strukturen zu erkunden und zu verstehen.

GN⁺ 2024-04-06

Beeindruckende KI-Musik, aber es fehlt irgendwie etwas, weil man die Absicht und Emotionen menschlich gemachter Musik nicht zu spüren scheint.
Es gibt keine Erwähnung des Urheberrechts bei von KI erzeugtem Audio, daher stellt sich eine wichtige Frage zum Eigentum an den Ausgaben.
Ich habe der KI einen Beat gegeben, den ich vor 10 Jahren gemacht habe, und es klang, als hätte man eine Stereoanlage in eine Waschmaschine gesteckt. Wahrscheinlich braucht es einen größeren Datensatz, aber ich überlege, ein Abo abzuschließen.
Dass Stability AI lizenzierte Datensätze verwendet und damit eine faire Vergütung für Kreative sicherstellt, ist gut gemacht.
Technisch beeindruckend, aber die von KI erzeugte Musik ist gewöhnlich. Ein moderner elektronischer Musiker kann bessere Arbeit leisten.
Schade, dass Stability AI nicht Open Source ist. Hoffentlich schlagen sie nicht denselben Weg wie OpenAI ein.
Die KI versucht, Audio-Samples auf ähnliche Weise neu zusammenzusetzen, aber das ist etwas anderes als echtes Schlagzeug- und Gitarrenspiel. Trotzdem interessant, und ich erwarte künftig verbesserte Versionen.
Ich war auf der Suche nach etwas Neuem, weil ich die Synthwave-Musik, die ich beim Coden höre, satt hatte, und es wirkt so, als könnte KI unendlich viele „gut genug“-Playlists erzeugen.
Es ist mir nicht gelungen, mit der KI etwas Interessantes zu erzeugen. Die Website ist schwer zu benutzen.
Ich frage mich, ob es eine ComfyUI-ähnliche Oberfläche für Audio-Modelle gibt.