1 Punkte von GN⁺ 2024-02-14 | 1 Kommentare | Auf WhatsApp teilen

Hinweise

  • Diese Website funktioniert in Safari möglicherweise nicht richtig; für die beste Erfahrung wird Google Chrome empfohlen.

Stabile Audioerzeugung

  • Das Modell kann 44,1-kHz-Stereomusik in verschiedenen Längen erzeugen, darunter beispielsweise Berliner Techno, Rave, Drum Machines, Synthesizer und Musik mit düsterer Atmosphäre.
  • Anders als frühere State-of-the-Art-Modelle kann dieses Modell auch 44,1-kHz-Stereo-Soundeffekte erzeugen, etwa das Geräusch einer sich schließenden Tür, vorbeifahrender Sportwagen oder Motorräder, Feuerwerk oder Schritte in einer Höhle.
  • Alle Beispiele auf dieser Website wurden mit demselben Modell erzeugt, das sowohl Musik als auch Soundeffekte in 44,1-kHz-Stereo generieren kann.

Langfristige Erzeugung von Stereomusik: Vergleich mit dem Stand der Technik

  • Die Klangqualität kann durch den Vergleich dieses Modells mit anderen Modellen bewertet werden, die Musik mit Mandolinenspiel, Pfeifen, Gitarre und Flöte erzeugen.
  • Ebenfalls Gegenstand des Vergleichs ist die Erzeugung kommerzieller Musik mit Klaviermelodie, Snare-Rolls, Kick-Pattern, Hi-Hats, Klatschen und einer Lead-Melodie auf dem Synthesizer.

Soundeffekte: Vergleich mit dem Stand der Technik

  • Die Klangqualität kann durch den Vergleich dieses Modells mit anderen Modellen bewertet werden, die Klick- und Hochdrehgeräusche eines Motors sowie laut zwitschernde Vögel erzeugen.
  • Die ausgewählten Prompts verlangen keine starke Stereo-Bewegung, daher zeigen die Ergebnisse ein relativ wenig räumliches Rendering.

Autoencoder: Rekonstruktion

  • Zur Bewertung der Audio-Fidelity werden Originalaufnahmen mit Aufnahmen verglichen, die durch den Autoencoder gelaufen sind.
  • Die Rekonstruktion durch den Autoencoder ist dem Original sehr ähnlich und nahezu transparent.

GN⁺-Meinung

  • Diese Technologie stellt einen wichtigen Fortschritt im Bereich der Erzeugung von Musik und Soundeffekten dar; besonders hervorzuheben ist die Fähigkeit, hochwertigen Stereo-Sound zu erzeugen.
  • Durch den Vergleich mit aktuellen Modellen lässt sich die überlegene Klangqualität dieses Modells objektiv bewerten, weshalb es voraussichtlich ein nützliches Werkzeug für Produzenten von Audioinhalten sein wird.
  • Der Vergleich der Rekonstruktion mittels Autoencoder zeigt, dass diese Technologie das Originalaudio sehr präzise wiederherstellen kann, was auf Einsatzmöglichkeiten in Anwendungen hindeutet, die empfindlich auf Klangqualität reagieren.

1 Kommentare

 
GN⁺ 2024-02-14
Hacker-News-Kommentar
  • Ed Newton-Rex kündigte kurz nach der Veröffentlichung von Stable Audio wegen Bedenken hinsichtlich Urheberrecht und Trainingsdaten.

    In Safari funktioniert die Website möglicherweise nicht richtig. Für die beste Erfahrung wird Google Chrome empfohlen.

  • Die Situation aus den 90ern und mit Internet Explorer wiederholt sich, aber diesmal ist es positiv, dass der dominante Browser Open Source ist.

    • Jemand bittet darum, einen animierten GIF-Button zu erstellen, der sagt, dass man es am besten nur in Chrome ansieht.
  • Wie bei Stable Diffusion dürften Text-Prompts der am schwersten kontrollierbare Weg sein, um brauchbare Ausgaben zu erhalten.

    • Es wird erwartet, dass man mit MIDI als Eingabe einen neuronalen Synthesizer bekommen könnte.
  • Stable Audio ist im Vergleich zu den aktuellen SOTA-Musikmodellen (MusicGen, MusicLM) deutlich überlegen.

    • Man kann es über ein Abonnement auf der Produktseite von Stable Audio nutzen, aber es gibt keine API, die Entwickler integrieren oder verwenden könnten.
  • Es braucht weiterhin einen Schritt, in dem die AI hochwertige Soundbibliotheken lernt und dann per MIDI die Sounds dieser Bibliotheken auslöst.

    • Dadurch könnte die Klangqualität perfekt sein und zugleich die Kreativität der Musik-AI erhalten bleiben.
  • Aus Sicht eines Schlagzeugers ist das „Drum Solo“ langweilig, mit seltsamen Klängen durchmischt und noch kein wirklich realistischer Soundeffekt.

    • Die erzielten Fortschritte sind jedoch enorm und beeindruckend.
  • Der Code und die Trainingsanweisungen wurden veröffentlicht, das Modell jedoch nicht.

    • Das ist praktisch so, als würde man anonyme Nutzer dazu verleiten, einen Datenlader an ihr Apple-Music-Konto anzuschließen und damit zu experimentieren.
  • Es ist lustig, festgestellt zu haben, dass das Hinzufügen des Prompts „high quality, stereo“ im Allgemeinen hilft.

    • Interessant ist, dass man bei LLMs bessere Ergebnisse erzielen kann, indem man einfach darum bittet.
  • Die Idee der Generierung von Soundeffekten war kurz interessant, aber „Fußschritte“ sind sehr schlecht.

  • Mit dem Prompt „energiegeladene Musik, Violine, Gesang, Orchester, Klavier, Minimalismus, John Adams, Nixon in China“ lässt sich sehr eigenartige und interessante Musik erzeugen.