10 Punkte von xguru 2024-04-11 | 5 Kommentare | Auf WhatsApp teilen
  • Neues Projekt von Bellard, dem Entwickler von FFMPEG/QEMU
  • TSAC ist ein Audiokomprimierungs-Utility, das sehr niedrige Bitraten wie Mono mit 5,5 kb/s oder Stereo mit 7,5 kb/s bei 44,1 kHz erreicht und dabei dennoch gute Klangqualität liefert
  • TSAC kann einen 3,5 Minuten langen Stereo-Song in eine Datei mit einer Größe von 192 KiB komprimieren
  • Für schnelle Verarbeitung ist eine Nvidia-GPU erforderlich; reine CPU-Unterstützung ist ebenfalls vorhanden, aber langsamer

Technische Informationen

  • TSAC basiert auf einer modifizierten Version des Descript Audio Codec, erweitert für Stereo, sowie auf einem Transformer-Modell zur weiteren Erhöhung der Kompressionsrate. Beide Modelle sind mit 8 Bit pro Parameter quantisiert
  • Das Transformer-Modell wird deterministisch und reproduzierbar ausgewertet, sodass die Ergebnisse nicht vom genauen GPU- oder CPU-Modell oder von der Anzahl der konfigurierten Threads abhängen. Das bedeutet, dass komprimierte Dateien mit unterschiedlichen Hardware- oder Softwarekonfigurationen dekomprimiert werden können.

5 Kommentare

 
botplaysdice 2024-04-11

Auf der Homepage habe ich gesehen, dass er sich wohl auch kurz für LLMs interessiert hat. Da dachte ich mir: So jemand beschäftigt sich mit so einer aktuellen Technologie? Und dabei wurde mir wieder klar, dass KI wirklich der große Trend ist.

 
xguru 2024-04-11

Wenn man die frühere Vorstellung des monsterhaften Typs Fabrice Bellard aktualisiert...

Fabrice Bellard

1989 entwickelte er LZEXE

1996 Harissa – eine Java Virtual Machine und ein Java-zu-C-Code-Compiler

1997 veröffentlichte er eine Formel, um bestimmte Stellen von Pi (π) in Binärdarstellung zu bestimmen.
-> Berechnung mit einer Methode, bei der die vorherigen Stellen überhaupt nicht ausgerechnet werden. Die billionste Stelle ist „1“.
https://en.wikipedia.org/wiki/Bellard%27s_formula

1998 stellte er TinyGL vor – eine kleine, einbettbare OpenGL-Implementierung

2000 stellte er FFMpeg vor. Die meisten Videoplayer, die wir heute nutzen, verwenden es.

2000 gewann er die IOCCC mit 448 Byte C-Code zur Suche nach der größten Primzahl. Diese Primzahl blieb bis 2016 die größte entdeckte Primzahl.

2001 stellte er Tiny C Compiler vor – einen extrem schlanken C-Compiler

2002 stellte er QEmacs vor – einen extrem schlanken Emacs-Klon. HTML/XML/CSS2-WYSIWYG-Darstellung und -Bearbeitung möglich (mit eigener Browser-Engine)

2003 stellte er QEMU vor – einen CPU-Emulator mit Hardware-Virtualisierungsfunktionen

2004 stellte er TinyCC Boot Loader vor – einen Bootloader, der direkt den Linux-Kernel kompilieren und booten kann

2005 stellte er einen DVB-T-Signalgenerator vor: Statt teurer Sendeanlagen war digitale TV-Übertragung auf einem Desktop möglich. Dazu wurde der Quellcode nicht veröffentlicht.

2009 stellte er einen Weltrekord auf, indem er Pi auf 2,7 Billionen Nachkommastellen berechnete. Angeblich ließ er dafür 131 Tage lang seinen Desktop rechnen.
-> Ihn interessierten dabei weniger große Zahlen als vielmehr die Herausforderung des Computerprogrammierens.

2011 stellte er JSLinux vor. Linux, das im Webbrowser läuft.

2019 stellte er die QuickJS JavaScript Engine, eine kleine, schnelle und einbettbare JavaScript-Engine vor

2022 veröffentlichte er TextSynth, ein mit gpt2tc (GPT-2) erstelltes SaaS

Außerdem entwickelte er mit BPG ein auf HEVC basierendes Bildformat mit besserer Kompression als JPG (mit JavaScript-Decoder, daher in jedem Browser nutzbar)

Außerdem setzte er 4G-LTE-/5G-NR-Basisstationen günstig auf PC-Basis um und vermarktete das über seine eigene Firma Amarisoft

Er ist einfach jemand, bei dem man bei jedem seiner Projekte nur staunen kann, wie das alles von einer einzigen Person kommen kann.

 
mdisprgm 2024-04-11

Wow..

 
botplaysdice 2024-04-11

Irgendwann gab es auf HN in einem Posting über den von dieser Person geschriebenen Code ...

Jemand fragte: „Postet Bellard hier (auf HN) nicht?“ Darauf kamen Antworten wie: „Glaubst du, jemand so Produktives kommt hierher, um Beiträge zu schreiben?“ … haha

Wirklich ein Monster ...

 
xguru 2024-04-11

Hacker-News-Kommentare

Zusammenfassung:

  • Es gibt viele positive Reaktionen auf TSAC, Bellards neuen Audio-Codec. Besonders bei niedrigen Bitraten scheint die Leistung im Vergleich zu bestehenden Codecs überlegen zu sein.
  • Wenn man die komprimierten Dateien von TSAC beschädigt, entstehen interessante Ergebnisse. Der Klang im Fast-Modus und im normalen Modus unterscheidet sich.
  • Für Echtzeitverarbeitung wird eine NVIDIA-GPU benötigt, und das Decoding auf Mobilgeräten könnte belastend sein. Der Einsatz auf leistungsschwachen Embedded-Systemen dürfte begrenzt sein.
  • Die komprimierte Dateigröße des TSAC-Decoders beträgt ganze 237 MB, was Verwunderung auslöst. Es wird die Frage gestellt, ob Audiosamples im Decoder enthalten sind.
  • Es besteht Interesse an einem Vergleich mit Codecs wie Codec2, die noch niedrigere Bitraten unterstützen.
  • Vom Entwickler von DAC, dem zugrunde liegenden Codec von TSAC, gab es einen Kommentar zu TSAC. Der Verbesserungsansatz mithilfe von Transformer-Modellen ist interessant.
  • Die Funktionsweise von TSAC ähnelt KI-Modellen zur Musikgenerierung. Einige speisen Tokens in ein Sprachmodell ein, um Musik zu erzeugen, andere ersetzen die Tokenisierung, indem sie kontinuierliche Repräsentationen für Diffusion-Modelle bereitstellen.
  • Es wurden Fragen zu einem deterministischen und reproduzierbaren Evaluierungsverfahren für TSAC gestellt. Man fragt sich, ob Floating Point und Parallelität verwendet werden. Ein Port auf AMD-GPUs könnte sich auf das deterministische Verhalten auswirken.
  • Die meisten Mediacompression-Technologien konzentrieren sich auf Szenarien mit niedrigen Bitraten. Es besteht Neugier, wie groß der Verbesserungseffekt bei hohen Bitraten wäre, etwa im Vergleich von 256kbps AAC zu AV1 bei 10Mbps.