1 Punkte von GN⁺ 2023-07-18 | 1 Kommentare | Auf WhatsApp teilen
  • SoundStorm ist ein Modell für effiziente, nicht-autoregressive Audioerzeugung.
  • Dieses Modell erzeugt Audio-Token mithilfe bidirektionaler Attention und vertrauensbasierter paralleler Decodierung.
  • Im Vergleich zu anderen Ansätzen ist SoundStorm 100-mal schneller und behält dabei die gleiche Audioqualität und Konsistenz bei.
  • Auf TPU-v4 kann SoundStorm 30 Sekunden Audio in nur 0,5 Sekunden erzeugen.
  • Das Modell kann hochwertige, natürliche Dialoge synthetisieren, indem es den gesprochenen Inhalt, die Stimme des Sprechers und Sprecherwechsel steuert.
  • SoundStorm kann zusammen mit einem Sprach-Prompt Audio auf Basis semantischer Token erzeugen.
  • Das Modell erzeugt hochqualitatives Audio und bewahrt dabei die Stimme des Sprechers aus dem Sprach-Prompt.
  • SoundStorm erzeugt im Vergleich zu anderen Modellen Audio von höherer Qualität.
  • Da das Modell durch Verzerrungen in den Trainingsdaten beeinflusst werden kann, ist Vorsicht geboten, um Missbrauch zu verhindern.
  • SoundStorm kann durch einen dedizierten Klassifikator erkannt werden, was das Risiko von Missbrauch verringert.
  • Dieses Modell wurde entwickelt, um Forschung zur Audioerzeugung einer breiteren Community zugänglich zu machen.

1 Kommentare

 
GN⁺ 2023-07-18
Hacker-News-Kommentare
  • Die CGI-Branche hat erhebliche Fortschritte gemacht, um realistische Bilder und Audios zu erzeugen.
  • Die Sprachsynthese hat einen Meilenstein erreicht, an dem Maschinen Töne erzeugen können, die von menschlichen nicht zu unterscheiden sind.
  • Früher klang TTS-Technologie manchmal schlecht, aber inzwischen gibt es hochwertige Optionen.
  • Der Autor fragt sich, wann diese Technologie auf Geräten wie dem Raspberry Pi verfügbar sein wird.
  • Bing und Bard nutzen fortschrittliche Sprachtechnologie, aber man wünscht sich, dass diese Fortschritte über öffentliche APIs und Benutzeroberflächen verfügbar werden.
  • Neue Jobs, die durch technischen Fortschritt entstehen, sind oft schlecht bezahlt und gering angesehen.
  • SoundStorm wurde darauf trainiert, Dialoge zu erzeugen, indem Transkripte verwendet werden, die mit | Sprecherwechsel markieren.
  • Das Bark-Modell erzeugt ebenfalls Dialoge, übersieht aber manchmal Sprecherwechsel.
  • Die Fähigkeit, aus nur 3 Sekunden Ausgangsmaterial 30 Sekunden TTS zu erzeugen, ist beeindruckend.
  • Arbeitsmarktplätze wie UpWork und Fiverr müssen sich möglicherweise an die Verfügbarkeit von Software anpassen, die ihre eigenen Dienstleistungen ausführen kann.
  • Linux-Nutzer suchen nach TTS-Stimmen, die sich leicht einrichten lassen.
  • Der Kommentator interessiert sich nicht für von KI erzeugte Spiele und bevorzugt von Menschen geschriebene NPC-Dialoge.
  • Die Beispielausgaben von SoundStorm sind beeindruckend, weisen aber einige feine Mängel auf.
  • Wenn in Werbung ohne Erlaubnis KI-generierte Stimmen verwendet werden, kann das rechtliche Probleme verursachen.
  • Ein GitHub-Link zum SoundStorm-PyTorch-Repository wird bereitgestellt.