SoundStorm: Effiziente parallele Audioerzeugung

(google-research.github.io)

1 Punkte von GN⁺ 2023-07-18 | 1 Kommentare | Auf WhatsApp teilen

SoundStorm ist ein Modell, das semantische Tokens von AudioLM entgegennimmt und neuronale Audio-Codec-Tokens parallel erzeugt, um den Rechenaufwand bei der Erzeugung langer Audios zu reduzieren
Mit bidirektionaler Attention und vertrauensbasierter paralleler Decodierung zielt es auf eine vergleichbare Qualität wie autoregressive Verfahren ab und erhöht zugleich die Konsistenz von Sprache und akustischen Bedingungen
Auf TPU-v4 erzeugt es 30 Sekunden Audio in 0,5 Sekunden und ist damit um Größenordnungen schneller als der akustische Generator von AudioLM
In Kombination mit SPEAR-TTS lassen sich Skript, kurzer Sprach-Prompt und Sprecherwechsel-Annotationen steuern, sodass 30 Sekunden natürliche Konversation auf einer einzelnen TPU-v4 in 2 Sekunden synthetisiert werden können
Sprachimitation kann für Identitätsbetrug und das Umgehen biometrischer Authentifizierung missbraucht werden, weshalb Schutzmaßnahmen erforderlich sind; nach dem Austausch erzeugtes Audio ließ sich mit einem dedizierten Klassifikator zu 98,5 % erkennen

Erzeugungsverfahren und Leistung von SoundStorm

SoundStorm ist ein effizientes Modell zur nicht-autoregressiven Audioerzeugung
Die Eingabe sind semantische Tokens von AudioLM, die Ausgabe sind neuronale Audio-Codec-Tokens
Die Generierungsleistung basiert auf zwei Designentscheidungen
- Bidirektionale Attention nutzt den Kontext vor und nach einer Position gemeinsam
- Vertrauensbasierte parallele Decodierung erzeugt mehrere Tokens auf einmal
Im Vergleich zum autoregressiven Generierungsverfahren von AudioLM erzeugt es Audio in gleicher Qualität, während die Konsistenz von Sprache und akustischen Bedingungen höher ist
Auf TPU-v4 erzeugt es 30 Sekunden Audio in 0,5 Sekunden

Gesprächssynthese

SoundStorm kann in Kombination mit der Text-zu-Semantik-Modellierungsphase von SPEAR-TTS hochwertige, natürliche Gespräche synthetisieren
Drei Elemente lassen sich steuern
- Äußerungsinhalt über das Skript
- Sprecherstimme über einen kurzen Sprach-Prompt
- Sprecherwechsel über Skript-Annotationen
Die Laufzeit für die Synthese eines 30-sekündigen Gesprächsabschnitts wurde auf einer einzelnen TPU-v4 mit 2 Sekunden gemessen
Die in den Beispielen verwendeten Texte und Sprecher kamen während des Trainings nicht vor

Erzeugung mit und ohne Prompt

SoundStorm erzeugt Audio bedingt durch die semantischen Tokens von AudioLM und demonstriert sowohl Fälle mit als auch ohne 3-sekündigen Sprach-Prompt
Ohne Prompt werden unterschiedliche Sprecher gesampelt
Mit Prompt bleibt die Stimme des Sprechers mit hoher Konsistenz erhalten
Die Originalsamples stammen aus LibriSpeech test-clean
Die Generierungsgeschwindigkeit ist gegenüber dem akustischen Generator von AudioLM um Größenordnungen höher

Vergleich mit Basismodellen

Bei promptbasierter Generierung weist SoundStorm eine höhere akustische Konsistenz als AudioLM auf und bewahrt die Sprecherstimme des Prompts besser
Im Vergleich zu RVQ level-wise greedy decoding im selben Modell erzeugt SoundStorm Audio mit höherer Qualität
Die Vergleichsbeispiele stellen die Ausgaben von Original, AudioLM, Greedy und SoundStorm nebeneinander bereit

Auswirkungen und Sicherheitsüberlegungen

SoundStorm ist ein Modell, das neuronale Audio-Codec-basierte Repräsentationen von Audio in hoher Qualität und effizient erzeugt
In dieser Arbeit wird es als Komponente eingesetzt, die die akustische Generierungspipeline von AudioLM und SPEAR-TTS ersetzt
Generierte Samples können von Verzerrungen in den Trainingsdaten beeinflusst sein, und die Beispiele können Einschränkungen wie repräsentierte Akzente und Stimmmerkmale enthalten
Sprechermerkmale lassen sich per Prompt stabil steuern, doch eine gründlichere Analyse der Trainingsdaten und ihrer Grenzen bleibt Gegenstand künftiger Arbeiten
Die Fähigkeit zur Sprachimitation birgt Missbrauchspotenzial
- Sie kann zum Umgehen biometrischer Authentifizierung und für Identitätsbetrug genutzt werden, weshalb Schutzmaßnahmen wichtig sind
- Nach dem Austausch erzeugtes Audio ließ sich mit einem dedizierten Klassifikator wie bei Borsos et al. (2022) zu 98,5 % erkennen
- Als Komponente eines größeren Systems wird angenommen, dass SoundStorm gegenüber den in Borsos et al. (2022) und Kharitonov et al. (2023) diskutierten Risiken voraussichtlich keine zusätzlichen Risiken einführt
- Wenn der Speicher- und Rechenbedarf von AudioLM sinkt, könnte Audioerzeugungsforschung für eine breitere Community zugänglich werden
- Für die Zukunft ist geplant, Audio-Watermarking als weiteren Ansatz zur Erkennung synthetischer Sprache zu untersuchen

1 Kommentare

GN⁺ 2023-07-18

Hacker-News-Kommentare

Bei CGI gab es immer wieder Meilensteine, auf die man zusteuerte. Bäume mit Blättern wirkten endlich realistisch, Gras im Wind sah fast glaubwürdig aus, Haare und gallertartige Materialien wurden besser, und oft konnte man erst in Pixar-Kurzfilmen sehen, worauf sich die Technik konzentrierte, bevor es dann in Filmen ankam.
Danach kamen Motion Capture und Techniken, bei denen digitalen Gesichtern echte Schauspielergesichter übergestülpt wurden; ich war zum ersten Mal bei Pirates of the Caribbean völlig verblüfft, und bei den Affen in Planet of the Apes genauso. Große Teile der CGI-Branche scheinen inzwischen an einem Punkt angekommen zu sein, an dem die schwierigsten Probleme gelöst wirken.
Als ich jetzt den ersten synthetischen Dialog unter Dialogue Synthesis abgespielt habe — „Where did you go last summer? | I went to Greece, it was amazing.“ — war ich wieder verblüfft. Es fühlt sich an, als hätten wir nun den Meilenstein erreicht, an dem Maschinen wirklich menschlich klingen und nicht mehr von Menschen zu unterscheiden sind.
Noch vor 10 bis 5 Jahren war das Beste, was man für TTS tun konnte, Sprachdateien auf einem Android-Handy rendern zu lassen, und alles andere war wirklich ziemlich schlecht. Vor allem im Open-Source-Bereich war es grauenhaft.
Wie lange wird es also dauern, bis man auf einer künftigen Raspberry-Pi-Generation ein Modell dieser Qualität herunterladen und ohne Cloud nur per HTTP-Aufruf perfekte Stimmen über Audioausgabe erzeugen kann? 5 Jahre?
- Eine weitere Frage ist, wie lange es dauert, bis ein System mit 10 Oktaven Gesang auftaucht und man echte menschliche Sänger gar nicht mehr braucht oder will.
- Wenn die Frage lautet: „Kann eine künftige Raspberry-Pi-Generation ohne Cloud perfekte Sprache erzeugen?“, dann vielleicht etwa 5 Jahre? Vermutlich ungefähr dann, wenn ein größeres Whisper-Modell darauf laufen kann. Vielleicht läuft dann auf dem nächsten Raspberry Pi eine quantisierte oder anderweitig optimierte Version irgendeines Audiomodells.
  Schon jetzt könnte es fast möglich sein, wenn man sich wirklich Mühe gibt und statt eines allgemeinen großen Modells, das jede Stimme erzeugen kann, ein kleines Modell verwendet, das auf eine einzelne Stimme feinabgestimmt ist. Läuft whisper-tiny nicht in Echtzeit auf dem Pi? Und das nutzt nicht einmal die GPU des Pi. (https://github.com/ggerganov/whisper.cpp/discussions/166)
  Bearbeitung: medium scheint auf dem Pi etwa 30-mal langsamer als tiny zu sein, also war ich wohl zu optimistisch. Ich wusste nicht, dass Whisper tiny so viel schneller als medium ist.
  Dieser Ansatz funktioniert auch bei Tortoise ziemlich gut: Man kann sehr schnelle Tortoise-Qualitätseinstellungen verwenden und trotzdem eine ähnliche Qualität wie mit größeren Modellen erzielen. Wenn man das gesamte Modell auf eine einzelne Stimme feinabstimmt, gehen natürlich etliche coole Funktionen verloren. Für Tortoise wäre es auf dem Pi wohl immer noch zu langsam, aber dieselbe Strategie könnte bei schnelleren Modellen wie SoundStorm funktionieren.
  Was die Qualität angeht, gibt es bei der langfristigen Konsistenz über längere Audioabschnitte noch viel Luft nach oben. Wenn ein echter Mensch ein Hörbuch einliest, beeinflussen Wörter am Anfang einer Seite stark, wie Wörter weiter unten gelesen werden. Dieser Einfluss kann sogar über große Distanzen reichen, etwa von Seite 10 bis Seite 300. Wenn man ein Hörbuch mit einem Spitzen-TTS-Modell erstellt und genau hinhört, fallen diese Inkonsistenzen stark auf. Es klingt dann, als hätte der Sprecher Absätze in beliebiger Reihenfolge aufgenommen, oder wie bei Videospiel-Dialogen, bei denen Schauspieler alle Zeilen einzeln aufnehmen und nicht auf das Spiel der anderen reagieren.
  Wenn man das Kontextfenster auf 1 oder 2 Minuten erweitert, kommt man näher heran, und für manche Bücher könnte das reichen. Kurzfristig kann ein Mensch auch alle Audiosamples anpassen und manuell nachbearbeiten, damit es natürlich klingt. Dadurch werden Projekte wie Fan-Hörbücher möglich, bei denen man sich die Zeit nimmt, alles sauber abzustimmen. Bei vollautomatisch erzeugten Büchern sind diese Unstimmigkeiten aber wahnsinnig störend. Die Darbietung liegt einzelnen Passagen so nahe, dass jeder Moment mit unpassendem Tonfall umso schmerzhafter auffällt.
- Wenn man wirklich einen sehr kleinen Formfaktor braucht, kann man schon jetzt einen Jetson kaufen und darauf komplexere Modelle laufen lassen. Allerdings ist das teuer.
- Ich habe über Jahre hinweg die Fortschritte bei CGI verfolgt und diese Stufen immer bewundert. Es war durchgehend faszinierend zu sehen, wie ein weiterer komplexer Teil der Realität gerendert werden konnte.
  Aber inzwischen wächst in mir mit jeder neuen Technik, die menschliche Kreativität und menschliches Verhalten nachahmt und kopiert, auch mehr Unbehagen.
  Habe ich ein Recht darauf zu wissen, ob das, was ich sehe oder lese, generiert wurde?
- Ich würde sagen, höchstens 2 Jahre.
Es ist schön, dass Bing und Bard aktuelle Microsoft- bzw. Google-Cloud-Produkte nutzen, aber ich fände es gut, wenn solche Fortschritte bei Sprachtechnologie zusammen mit Dingen wie audio palm(https://google-research.github.io/seanet/audiopalm/examples/) auch als öffentliche API oder Benutzeroberfläche verfügbar würden.
Die TTS von Bard ist okay, liegt aber klar zurück.
Unabhängig davon ist Bings englische/koreanische TTS wirklich gut. Ich wusste nicht, dass Microsoft für die kostenlose TTS in Edge sein Spitzenprodukt verwendet, aber deshalb ist sie den Standard-TTS-Stimmen von Google deutlich überlegen.
- Ich habe kürzlich Azure TTS für die Sprachkommentare in einer Produktdemo verwendet, und niemandem, dem ich sie gezeigt habe, ist aufgefallen, dass sie nicht von einem Menschen eingesprochen wurde.
  Unter den Azure-Stimmen gibt es noch bessere, und die TTS-Web-App hat ein paar kleinere Bugs, aber insgesamt war die Erfahrung wirklich sehr zufriedenstellend.
- Hast du schon Google Cloud Studio voices ausprobiert?
  https://cloud.google.com/text-to-speech/docs/wavenet#studio_voices_preview
- Die Aussage, dass „Microsoft für die kostenlose TTS in Edge sein Spitzenprodukt verwendet und damit Googles Standard-TTS-Stimmen klar übertrifft“, ist wirklich interessant — könntest du das etwas näher erläutern? Ich verfolge dieses Gebiet nicht besonders gut, deshalb habe ich Probleme mit der Interpretation.
  Heißt „Spitzenprodukt für kostenlose TTS“, dass es sich um eine freie Softwarebibliothek handelt oder um kostenloses SaaS? Bedeutet „on edge“ den Edge-Browser oder Ausführung am Edge auf dem Client-Rechner? Ist gemeint, dass jede TTS, die auf dem Client-Rechner läuft, besser ist als Googles Standard-TTS?
- Bei „öffentliche API oder Benutzeroberfläche“ muss ich seufzen. Google hat früher auch einige Modelle veröffentlicht, aber die unterhaltsame frühe Phase scheint zu Ende zu gehen.
Wenn man so eloquent sagt, Handwerker sollten sich einfach eine andere Arbeit suchen, lässt man aus, dass diese neue Arbeit oft einfach und schlecht bezahlt ist. Wenn Amazon die Läden vor Ort verdrängt, gründen sie kein neues Geschäft, sondern landen bei Jobs bei Wal-Mart
Interessant ist, dass SoundStorm offenbar darauf trainiert wurde, Dialoge zwischen zwei Personen zu erzeugen, indem ein Skript mit | als Markierung für Sprecherwechsel verwendet wird. Beim Bark-Modell scheint dasselbe |-Zeichen aber ebenfalls fast standardmäßig zu funktionieren, um Dialoge zu erzeugen
Etwa ein Drittel oder etwas mehr der Bark-Ausgaben klingt wie ein Selbstgespräch, und häufig werden Sprecherwechsel verpasst. Trotzdem erzeugt das Pipe-Zeichen recht zuverlässig Audio, das vom Vortragsstil her wie ein Dialog klingt
https://twitter.com/jonathanfly/status/1675987073893904386
Gibt es irgendwo in den Trainingsdaten Text-Audio-Daten, in denen | für Sprecherwechsel verwendet wird?
Interessanterweise rendert Bark SoundStorm-Prompts oft in einem spöttischen Tonfall. Ich weiß nicht, ob das an Stilunterschieden der Modelle liegt oder daran, dass Google als repräsentative Beispiele nur direktere Vorlesestimmen ausgewählt hat
- Soweit ich weiß, sagen die Entwickler das nicht offen, aber Bark scheint stark auf YouTube-Korpora trainiert zu sein, mehr als auf typische Audio-Datensätze des Machine Learning. In solchen Quellen könnte es Transkripte dieser Art geben, weshalb auch Dinge wie [laughs] zu funktionieren scheinen
Ich frage mich, ob Arbeitsmarktplätze wie UpWork oder Fiverr sich schnell genug an eine neue Situation anpassen können, in der Software viele Dienstleistungen übernehmen kann, die früher von Menschen erbracht wurden
Die aktuellen Marktplatzoberflächen scheinen dafür nicht geeignet zu sein. Käufer werden sofortige Ergebnisse wollen, statt erst eine Person zu kontaktieren und auf den Abschluss der Arbeit zu warten
Daher müssten sich die Plattformen wohl eher in eine Art App Store verwandeln. Verkäufer würden ihre Dienste anbinden, und Käufer würden sie direkt nutzen
- Ich verstehe nicht, warum sich alle nur darauf konzentrieren: „Wie soll das Menschen ersetzen?“ Es ist einfach wirklich gute Text-to-Speech
- Diese Nutzer erledigen die Dinge, die sie tun müssen, bereits mit AI. Ich finde das in Ordnung
- Den Vorteil, den ich sehe, gibt es beim Austausch von Dialogzeilen. Wenn ein Projekt abgeschlossen ist, kostet es viel Zeit, einen Schauspieler noch einmal ins Studio zu holen. Vielleicht ist er schon beim nächsten Projekt, und wenn er gefragt ist, ist sein Kalender so voll, dass kaum Zeitfenster bleiben. Außerdem sind manche Schauspieler in diesem Prozess nicht besonders gut. Dann muss man sie lange im Raum behalten, um die gewünschte Performance herauszuholen, was besonders schwierig sein kann, wenn diese Performance an ein bestimmtes Setting gebunden war
  Wenn man ein Tool zur Hand hätte, in das man ein paar frühere Zeilen des Schauspielers eingibt, etwas erzeugt, das anhand festgelegter Parameter die Lücken füllt, und das Projekt dann ohne all die logistischen Probleme weiterführen kann, wäre das himmlisch
  Es könnte aber auch ein ganzes Spezialgebiet zerstören. Es würde den Wert von Schauspielern senken. Tatsächlich passiert das bereits. Es gibt schon Programme auf dem Markt, die Sprecher komplett ersetzen, und sie werden im Videospielbereich eingesetzt
  Für meine Arbeit könnte das eindeutig hilfreich sein. Gleichzeitig ist mir sehr bewusst, dass das riesiges Missbrauchspotenzial hat
- Könnte man nicht einfach bestehende Software-Marktplätze nutzen?
Am beeindruckendsten ist, dass es so aussieht, als könne man aus nur 3 Sekunden Originalmaterial 30 Sekunden TTS erzeugen. Wirklich cool, und ehrlich gesagt viel weiter, als ich erwartet hatte
Wenn man sich die jüngsten Fortschritte ansieht: Gibt es inzwischen brauchbare TTS-Stimmen für Linux, die normale Nutzer ohne kompliziertes Setup verwenden können?
Ein auf diese Weise erzeugtes Spiel möchte ich nicht spielen. Der genaue Grund, warum ich NPC-Dialoge hören will, ist doch, dass es von Menschen geschriebene Dialoge sind
Beeindruckend, aber im ersten Beispiel scheitert es im letzten Moment deutlich: Die Stimme des virtuellen Mannes rutscht bei „what?“ nach oben, und man hört klar einen Pitch-Korrektur-Effekt wie Auto-Tune
Die anderen Beispiele sind schlicht verblüffend. Wenn man wirklich nach nur wenigen Sekunden Training mehrere Minuten einer plausiblen Stimme ausgeben kann, ist der nächste Schritt wohl, sie singen zu lassen. Ich denke, es wird einen rechtlichen Sturm geben, wenn jemand mit ähnlicher Technik zum Beispiel Elvis’ Stimme in einer Werbung verwendet, ohne seinen Namen zu nennen, sodass Fans sie erkennen, das Audio aber weder mit seinen Texten noch mit bestehenden Songs übereinstimmt
- Das erste Beispiel scheint nicht von SoundStorm erzeugt worden zu sein. Es wirkt erzwungen und klingt wie verfremdet
Kein besonders kluger Einfall, aber es macht wirklich Spaß, alle Samples gleichzeitig abzuspielen. Es fühlt sich an wie eine HTML-Version von Ableton Live

SoundStorm: Effiziente parallele Audioerzeugung

Erzeugungsverfahren und Leistung von SoundStorm

Gesprächssynthese

Erzeugung mit und ohne Prompt

Vergleich mit Basismodellen

Auswirkungen und Sicherheitsüberlegungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare