- Neural Audio Codecs sind ein zentrales Werkzeug, um Audiodaten effektiv in Large Language Models (LLM) einzugeben.
- Frühere Sprach-Schnittstellen für LLMs sind überwiegend textbasierte Wrapper, weshalb echtes Sprachverständnis und Emotionserkennung eingeschränkt ist.
- Bei der Audiomodellierung ist die Anzahl der Samples im Vergleich zu Text deutlich höher, zudem ist langfristige Konsistenz schwerer aufrechtzuerhalten, sodass effiziente Kompression und Tokenisierung nötig sind.
- Mittels moderner Neural-Audio-Codec-Methoden wie Residual Vector Quantization (RVQ) wird Audio in LLM-freundliche, diskrete Tokens umgewandelt und verarbeitet.
- Durch moderne Neural-Audio-Codecs wie Kyutais Mimi verbessert sich die Ausdruckskraft und Qualität von Audio-LLMs zunehmend.
Hintergrund: Neural Audio Codec und Einführung von Audio-LLMs
- Die meisten LLM-basierten Sprachmodelle verstehen reale Audiodaten eher nicht direkt und setzen stattdessen auf ein Text-zu-Text-zu-Speech-Schema.
- Für echtes Sprachverständnis sind die Erkennung von Emotionen, Intonation, Sarkasmus und nonverbalen Nuancen essenziell.
- Einige Modelle (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) können Spracheingaben verarbeiten, verfügen aber nicht über tiefgreifendes Sprachverständnis.
- Text-LLMs wurden durch Datenmengen, Algorithmen und Rechenressourcen schnell leistungsfähiger, doch für Audiodaten ist die Verarbeitungsdichte deutlich höher.
Unterschiede im Tokenisierungsansatz von Text und Audio
- Bei Text reicht oft sogar ein relativ einfacher, fester Tokenizer wie Byte-Pair Encoding aus, um gute Ergebnisse zu erzielen.
- Selbst frühe LSTM- oder RNN-Modelle erreichten mit Sample-zu-einzelzeichenbasierter Vorhersage noch vernünftige Resultate.
- Audio hat in einer Sekunde zehntausende Samples; für nur 10 Sekunden sind hunderttausende zeitliche Vorhersagen nötig.
- Bei der Audioerzeugung auf Sample-Ebene wie in WaveNet sind zwar gute Klangqualitäten möglich, die Bedeutungsvermittlung ist jedoch schwierig.
Engpässe der Audiomodellierung und Grenzen der sampleweisen Vorhersage
- Die sampleweise Generierung ist in der Praxis extrem langsam und gewährleistet nicht automatisch Zusammenhang auf Bedeutungsebene.
- Bei einem Versuch (151M Parameter, 1000 Stunden Daten) sinkt die Praxistauglichkeit durch verrauschte Sprache und mangelnde Konsistenz.
- Die hohe Samplingrate von Audio (16 kHz, 2048 Kontext = 128 ms) stößt auf die Kontextverarbeitungsgrenzen von LLMs.
- Für Echtzeit-Audio ist effiziente Kompression zwingend erforderlich.
Neural Audio Codec: Autoencoder und RVQ
Grundprinzipien von Autoencoder und Vektorquantisierung (VQ-VAE)
- Es handelt sich um ein neuronales Netzwerk, das Eingaben (Audio, Bilder usw.) in einen kleineren Latent Space komprimiert und anschließend rekonstruiert.
- Embeddings werden mit Vektorquantisierung (z. B. k-means) in diskrete Tokens umgewandelt, damit sie einem LLM als Eingang dienen können.
- Mit der Straight-through estimator-Methode wird die nicht-differenzierbare Eigenschaft indirekt umgangen, sodass das Training funktioniert.
- Durch Zusatzterm Commitment Loss wird der Abstand zwischen Embedding und Clusterzentrum minimiert.
- Die VQ-VAE-Modellstruktur ist eine Weiterentwicklung des Autoencoders und auf quantisierungsfreundliche Verarbeitung ausgelegt.
Konzept der Residual Vector Quantization (RVQ)
- Wenn viele Quantisierungslevel erforderlich sind, werden die Grenzen eines einzelnen großen Cluster-Managements durch Residual-Token-Ebenen behoben.
- Das erste Embedding wird in der ersten Quantisierung kodiert, anschließend wird der Residualfehler zusätzlich quantisiert, um die Kompressionseffizienz zu maximieren.
- Bei Bedarf sind mehrstufige mehrere Quantisierungsebenen möglich; die Architektur lässt sich dabei einfach mit einer
for level in range(levels)-Schleife erweitern.
- RVQ wird in aktuellen Neural-Audio-Codecs wie SoundStream (2021) zentral eingesetzt.
Audio-Tokenisierung und LLM-Einsatz
- Ein CNN-basierter Autoencoder downsamplet Audio zuerst (z. B. um den Faktor 128 auf 32-dimensionale Vektoren), danach wird jede Embedding-Position mit unabhängiger RVQ-Quantisierung verarbeitet.
- Die RVQ-Codes (z. B. ein 8-Level-RVQ) werden direkt sequentiell zu einer 1D-Token-Sequenz abgeflacht und als LLM-Eingabe genutzt.
- Wird Flattening eingesetzt, kann ein Teil der Zeitkompression verloren gehen (z. B. 128x Downsampling → 8x erneute Expansion).
- Codebook-Niveau, Anzahl der Ebenen und Reihenfolge des Flattenings beeinflussen jeweils Qualität und Kompressionsrate.
Praktisches Training von Neural-Audio-Codecs und Qualitätsverbesserung
- In Experimenten nimmt der Rekonstruktionsfehler mit steigender RVQ-Level-Anzahl ab und die Audioqualität steigt.
- Selbst mit einem selbst entwickelten einfachen Codec verbleiben jedoch noch leichte Störungen und Timbre-Verzerrungen.
- Moderne Neural-Audio-Codecs wie Kyutais Mimi verbessern die Qualität durch Neuerungen wie GAN-basierte Verluste und RVQ-Dropout.
- Ein GAN-Discriminator lernt, echtes von künstlichem Audio zu unterscheiden.
- In einigen RVQ-Ebenen werden zufällig nur Teile der Ebenen genutzt (Dropout), sodass Qualität auf allen Kompressionsstufen erhalten bleibt.
Konkrete LLM-Performance-Änderungen mit dem Mimi-Codec
- Mimi unterstützt aggressiveres Downsampling und effizientere Kompression wie 24 kHz Samplerate und 12,5 fps.
- Wird derselbe Libri-Light-10k-Stunden-Datensatz mit Mimi tokenisiert, sinkt der Speicherbedarf um etwa die Hälfte, wodurch Trainingseffizienz und Qualität steigen.
- Bei semantisch basierter Audioerzeugung wie Liedern oder Gedichten zeigt das Modell höhere Textkonsistenz.
Einführung semantischer Tokens (Semantic Token)
- In der obersten Ebene von Mimi befinden sich semantische Tokens, die mit sprachspezifischen BERT-Modellen wie WavLM extrahiert werden.
- Semantische Tokens decken den inhaltlichen Teil der Sprache ab, während untere RVQ-Tokens die akustischen Merkmale wie Timbre und Stimme tragen.
- Wenn semantische Tokens fixiert werden und nur die restlichen Tokens vom LLM neu erzeugt werden, kann derselbe Satz in einer anderen Stimme wiedergegeben werden.
Trade-off zwischen Semantik und Klangqualität
- Sinkt die Anzahl der RVQ-Ebenen, steigt der Anteil der semantischen Tokens, wodurch die semantische Übereinstimmung zunimmt und das LLM bessere textuelle Ausgaben erzeugen kann.
- In der Praxis kann das Modell sogar Teile der Trainingsdaten wie Einführungstexte von „Librivox“ auswendig reproduzieren.
- Je nach Gewichtung zwischen semantischem Verlust und Klangqualitätsverlust lassen sich unterschiedliche Anwendungen realisieren (Moshi priorisiert semantischen Verlust mit dem Faktor 100x).
Neueste Audio-LLM-Modelle und Forschungstrends
- Kyutais Moshi, Sesames CSM und Alibaba Qwen3-Omni gehören seit Jahren zu den führenden Forschungsrichtungen bei audio-nativen LLMs.
- Die meisten Modelle stützen sich weiterhin auf einen Ansatz mit parallelen Textströmen, während Schlussfolgerungen vor allem im Textraum laufen.
- Die Mischung und Kreuznutzung von Text- und Audio-Token sowie alternative Ansätze wie Kontinuierliche-latenz Raum-Generierung (Diffusions- und Consistency-Modelle) werden intensiv erforscht.
Fazit und Ausblick
- Neural Audio Codecs sind die Kerninfrastruktur für Audio-LLMs und verbessern die Sprachgenerierungsqualität erheblich, indem sie semantische und akustische Informationen ausgewogen tokenisieren.
- Gegenüber Text-LLMs besteht dennoch eine Modality Gap in Bezug auf Reasoning und Sprachverständnis.
- Kyutais Moshi und andere setzen Innovationen wie erste Ende-zu-Ende-Voice-AI-Ansätze um, daher wird ein weiteres Wachstum der Audio-ML-Entwicklung erwartet.
Relevante Papers und weiterführende Lektüre
- WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020): Überblick über die Entwicklung von Audio-Generationsmodellen und Kernkonzepte
- Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio: Überblick über Codec- und Modellanwendungsforschung
- Potenzial der Anwendung von Diffusion-/Consistency-Modellen für kontinuierliche Audioerzeugung
Beispiele aktueller audio-basierter LLMs (Stand 2025)
- Moshi (Kyutai)
- CSM (Sesame)
- Qwen3-Omni (Alibaba)
- MiMo-Audio (Xiaomi)
- LFM2-Audio (Liquid AI)
1 Kommentare
Hacker News Kommentar
Wenn man einem LLM mit hoher Stimme fragt: „Spreche ich mit tiefer oder mit hoher Stimme?“, fällt auf, dass es das nicht korrekt unterscheiden kann. Er fragt sich, ob das eine Grenze des LLM ist oder auf Sicherheits-Overfitting zurückgeht. Er verweist darauf, dass ChatGPT Voice-Modus zahlreiche Schutzmechanismen enthält – etwa die Sperrung von Musikgenerierung, die Vermeidung bestimmter Akzente (z. B. keine Imitation eines indischen Akzents) sowie Rassismus- und Vorurteilsprävention – und spekuliert, dass diese Eigenschaften möglicherweise komplett aus dem Modell entfernt wurden.
Er gibt an, der Autor zu sein, und meint, diese Beobachtung sei eher auf Modellgrenzen als auf Sicherheitsprobleme zurückzuführen. Das Training mit Audio ist selbst im Vergleich zum Textlernen nach wie vor schwieriger, wodurch die Generalisierung schlechter gelingt. Um das zu adressieren, kombinieren viele Audiomodelle Text- und Audioinformationen, z. B. ein einziges Modell mit Text- und Audio-Tokens als Eingabe/Ausgabe. Audio-Tokens fungieren dabei praktisch als eine integrierte Sprach-zu-Text-Umwandlung. Kolleg:innen, die bei Moshi gearbeitet haben, machten ähnliche Erfahrungen, und er sagt, das gälte auch für andere Modelle. Er hält auch den Einfluss synthetischer Daten für relevant: Beim Fine-Tuning mit TTS-generierten Daten fehlt Tonhöheninformation, sodass das Modell lernt, diese zu ignorieren.
Zur „Akzentangleichung“ (wenn der Gesprächspartner einen indischen Akzent hat, soll das LLM ebenfalls keinen indischen Akzent ausgeben) äußert er echte Verwunderung darüber, warum das nicht möglich ist. Er hat erlebt, dass die Verständlichkeit deutlich steigt, wenn die Stimme auf einen ähnlichen Akzent angepasst wird. Oft war es hilfreich, bei Personen, die das nicht konnten, den Akzent für sie zu verändern. Hätte er selbst einen indischen Englisch-Akzent nutzen können, wäre das in Gesprächen mit ausgelagerten Servicezentren tatsächlich sehr nützlich gewesen, sagt er.
Er fragt, ob jemand erlebt hat, dass ein LLM je nach „Rasse“ unterschiedlich reagiert, und merkt an, dass das erstaunlich wäre, wenn die meisten Trainingsdaten aus Textdialogen stammen – es wäre dann wenig Anlass, solche Vorurteile zu lernen.
Er teilt mit, dass der Qwen3 omni transcriber Stimme und Emotionen sehr gut beschreibt.
Er denkt, dass es nicht nur an Schutzmechanismen liegt: Er bekommt das Gefühl, dass die Tonhöhe selbst nicht verstanden wird. Als er im hochwertigen Sprachmodus von ChatGPT bat, sein Summen zu erkennen, erhielt er ständig nur „Beethoven 5“. Er vermutet, dass sein Summen als Tokens wie „dum-dum-dum-dum~“ tokenisiert wurde.
Im Audiobereich stellt er sich die Frage, ob Long-Range-Context gar nicht so wichtig ist und deswegen lineare Modelle im linearen Raum mit konstanter Zeit wie RWKV, S4 besser geeignet sein könnten. Er stellt sich vor, dass Transformer im niedrigen Frequenzbereich parallel arbeiten, während ein lineares Modell pro Sekunde einmal einen Zusammenfassungs-Token (inkl. Text, Emotionen usw.) ausgibt und Feedback erhält. Bei gemeinsamem Training würden die Bedeutungen dieser Summary-Tokens nicht vorab feststehen, sondern im Lernprozess entstehen. Das wäre ein reiner phonetic E2E-Ansatz ohne Texttranskription. Inhaltlich leere oder informationsarme Teile lassen sich dann in kleinere Token-Darstellungen komprimieren. In Bezug auf Logik oder Code könne man ein Text-LLM nicht übertreffen, aber es sei auch für Menschen schwer, Algorithmen in natürlicher Sprache detailliert zu erklären.
Er gibt zu, dass er mit linearen Modellen nicht vertraut ist, meint aber, hierarchische Modellierung sei in der Sprachforschung eine gängige Idee. Er nennt OpenAIs Jukebox (2020): ein 3-stufiger Audio-Codec, bei dem das Sprachmodell auf der groben Ebene vorhersagt und die Details in feineren Ebenen rekonstruiert werden. Kürzlich habe MiMo-audio vier Zeitschritte zu einem Patch zusammengefasst und vorhergesagt. Als Referenz verlinkt er das OpenAI Jukebox Paper und den MiMo-Audio Technical Report.
Er weist mit dem Cartesia-Website-Link auf das Unternehmen hin und sagt, dass dort an einem Audio-Modell mit konstanter Zeit gearbeitet wird.
Er motiviert außerdem mit den Worten: „Schreib das bitte auf jeden Fall als Paper!“
Auf die Frage, warum man nicht gängige Audio-Codecs wie JPEG oder MP3 verwendet, erklärt er: MP3 kann pro Frame unabhängig jeweils ein paar Dutzend Millisekunden Audio vollständig rekonstruieren. Bei 128 kbps sind das 418 Byte für 26 ms, also 10 bis 11-mal weniger als das Original, und unnötige Informationen werden entfernt. Mit einem Konverter könnte man sich also überlegen, Frames als Tokens zu verwenden.
Er teilt eine Zusammenfassung eines Papers, in dem JPEG direkt als Deep-Learning-Eingabe genutzt wurde: Wenn man ein CNN auf DCT-Koeffizienten trainiert, kann man den Zwischenschritt „Pixel rekonstruiert und dann transformiert“ überspringen. Mit ResNet-50 wurde die Trainingsgeschwindigkeit bis zu 1,77x gesteigert und die Genauigkeit verbessert. Er nennt den entsprechenden Paper-Link und meint, MP3 sei ebenfalls eine gute Idee.
Er sagt als Autor, der Hauptgrund dagegen sei die Kompressionsrate. Der frühe Neural-Audio-Codec SoundStream liefert schon bei 3 kbps noch brauchbare Qualität, MP3 liegt bei etwa 128 kbps. SoundStream war ursprünglich für Audio-Kompression in Google Meet entwickelt worden, und moderne Neural-Codecs sind noch effizienter geworden. Der moderne Ersatz von MP3, Opus, kann zwar 12 kbps erreichen, ist aber immer noch nicht so effizient wie echte Neural-Audio-Codecs. Traditionelle Codecs haben dafür den Vorteil geringerer CPU-Belastung.
Man kann natürlich einen Adapter trainieren, der einen 400-Byte-MP3-Frame in LLM-Embeddings überführt; aber die Eingabe im Neuronalen Netzwerk muss in eine verarbeitbare Struktur passen. Netzwerke mögen redundant strukturierte Daten (z. B. tokenisierten Text), nicht jedoch stark komprimierte Daten wie GZIP. Es wäre also ein einfacher Versuch, doch der Erfolg ist nicht garantiert; gelegentlich funktioniert so etwas auch überraschend.
Der TFA-Ansatz kodiert in einem 32-dimensionalen Raum und übertrifft psychoakustische Kompression deutlich. Außerdem werden Informationen entfernt, die fast nicht wahrnehmbar sind, was für neue Generierung wie Sprachsynthese kaum relevant ist.
Menschen erkennen Klänge über Frequenzanteile: Im Innenohr gibt es eine Filterbank mit Resonanzfrequenzen (je nach Länge der Haarzellen), und Sprachwahrnehmung basiert auf Formants, über die man ableiten kann, welche artikulatorischen Bewegungen bei der Sprachproduktion stattfanden. Wenn man MP3-Frames tokenisiert, wird die Frequenzinformation durch Quantisierung, Huffman-Codierung und Frame-Struktur black-boxartig. Mit dieser Struktur wäre zwar Textvorhersage möglich, aber je mehr wichtige Infos versteckt werden, desto schwieriger wird es. Ohne direkten Zugriff auf Formant-Informationen ist Generalisierung schwer, und es bleibt fraglich, ob ein auf einzelne Sprecher trainiertes LLM Kinderstimmen oder synthetische Stimmen gut erkennt.
Er lobt es als visuell beste Erklärung überhaupt und teilt, selbst mit VQ-VAE an gerendertem Text-Tokenizing gearbeitet zu haben. Mit einer 10-pt-Schriftgröße und PDF-Quelle hat er versucht, ein Diffusionsmodell zu trainieren, das komplette Textbilder erzeugt, inklusive latent representation für Dokumenttyp und Sprache. Er hat viel gelernt und ist fasziniert davon, wie elegant der Beitrag ist.
Er fragt: „Warum nicht ein LLM direkt auf tokenisierter Sprache aufbauen, statt sich immer auf Transkripte zu stützen?“ und betont, wie riesig die verfügbare Sprachmenge ist.
Er sagt, genau darüber gehe der Beitrag (die Umwandlung eines kontinuierlichen Sprachsignals in diskrete Tokens). Ein Audiofenster von 10 bis 100 ms lasse sich nicht leicht in einem einzelnen Token kodieren. Residual Vector Quantization meint, dass ein Time-Slice (Window) mehrfach über mehrere Dictionaries quantisiert wird. Im hinteren Teil des Beitrags kann man laut ihm auch Beispiele sehen, wo ein LLM auf dem Mimi-Audio-Codec trainiert wurde.
Textdaten sind meist bereinigt und standardisiert, aber Audio muss Sprache, Dialekt, Akzent, Mimik und Körpersprache berücksichtigen und ist dadurch deutlich komplexer. Sobald man Audio in Text umsetzt, fallen diese „Nebeninformationen“ weg und es bleibt ein sauberes Token-Set mit primär sprachlicher Bedeutung übrig. Das ist effizient und für multilinguale Zuordnung besonders stark.
Er sagt, das audio-token-basierte Training sei teurer, aber er prognostiziert, dass diese Herangehensweise früher oder später Standard werden wird. Der Unterschied zwischen LLMs, die mit YouTube-Transkripten trainiert wurden, und solchen mit echtem Audio, wäre in Effektivität und Ergebnis klar.
Bei der Audio-Tokenisierung entstehen mindestens viermal so viele Tokens wie bei Text; das macht das Effizienzproblem bereits. Und es bleibt die Frage, ob überhaupt genügend Daten vorliegen, um ein LLM allein auf Audio zu trainieren.
Er meint, der große Audio-Transformer-Durchbruch sei noch nicht da, schließt aber, dass Audio-First-Modelle theoretisch deutlich überlegen wären.
Er kannte Kyutai weder als Unternehmen noch als Projekt, ist aber davon überzeugt, dass es genau zu seinem laufenden Projekt passt, und bedankt sich dafür.
Er ist wirklich begeistert von dieser Arbeit und merkt an, dass Audio letztlich viel schwieriger zu handhaben ist als Text. Entscheidend sei, den effizientesten Voice-Codec für LLMs zu finden. Er kann sich vorstellen, dass das ideale Sprachcodec der Zukunft nicht auf Fourier-Transformation basiert, sondern auf physischen Parametern wie Stimmlippen, Zunge, Kehle und Mund. Wegen der relativ stabilen menschlichen Anatomie könnte sich eines Tages ein solcher Ansatz statistisch-standardisiert etablieren. Er bezeichnet es als formant speech encoding und sagt, dass er dafür ursprünglich im Bereich der Sprachsynthese geforscht hat.
Als Autor bedankt er sich zuerst für die Motivation und meint, physikbasierte Codecs seien für moderne ML-Entwicklung unzeitgemäß: Der aktuelle ML-Trend ist, möglichst wenig Domänenwissen vorzugeben und möglichst viel dem Transformer zu überlassen. Je stärker man ein Modell einschränkt, desto kleiner wird die Menge darstellbaren Klangs und desto eher stößt man an Qualitätsgrenzen. Gibt man aber Modellzwänge vor, entstehen trotzdem sehr effiziente und spannende Arbeiten, z. B. die DDSP-Arbeit, bei der ein Synthesizer per ML gesteuert wird, um Instrumente zu erzeugen; Ähnliches könnte man für Speech machen. Natürlich ist die Audioqualität schlechter, aber die Anzahl der Parameter ist deutlich geringer. KokoroTTS, bei dem Vokale und Konsonanten direkt zu Sprache synthetisiert werden (Tiny TTS), ist genau so ein Ansatz und dadurch extrem parameterarm. Er verlinkt das DDSP Paper und das KokoroTTS-Projekt.
Solche physikbasierten Sprachsynthesen gibt es schon lange, inklusive Ansätzen, die Mundstruktur und Luftstrom nachbilden, um wirklich sprechen zu lassen; allerdings mache dieser Ansatz oft den Fehler, Sprache als Ableitung von Schreiben zu interpretieren.
In der Sprachkodierung und -synthese ist das Source-Filter-Modell (Parametrisierung von Stimmquelle und Vokaltrakt als Filter) der Ursprung – älter als die Wiederentdeckung der FFT.
Bei der Frage, ob 100k Trainingsstunden ausreichend sind, sagt er, dass das für LLMs nicht viel sei, und erinnert an die „Bitter Lesson“, nach der Daten und Rechenleistung im KI-Kontext am wichtigsten sind.
Er sagt, der Beitrag sei hervorragend aufbereitet und nützlich; er wolle ihn gern mit seinem Team teilen. Da er kürzlich beginnt, Audio und Voice in interne KI-Produkte zu integrieren, ist es für ihn sehr praktisch relevant.