3 Punkte von lifthrasiir 2019-07-16 | 1 Kommentare | Auf WhatsApp teilen

In letzter Zeit hört man häufig von Fabrice Bellard, und eines der früheren Projekte dieses Herrn war ein verlustfreier Komprimierungsalgorithmus mit neuronalen Netzen (siehe https://bellard.org/nncp/). Nun wurde gerade GPT-2 (https://openai.com/blog/better-language-models/) veröffentlicht, also kam die Idee auf: Was wäre, wenn man das neuronale Netz damit ersetzt und den Komprimierungsalgorithmus so laufen lässt? Aus dieser Überlegung ist diese Seite entstanden. Kurze englische Texte werden um etwa 15 % komprimiert, das heißt, es werden nur 1,2 Bit pro Zeichen verwendet. Das liegt nahe an der geschätzten Informationsentropie pro englischem Buchstaben (0,6 bis 1,3 Bit). Wie man an der URL sieht, scheint die Absicht zu sein, die Nachrichten per SMS zu versenden.

  • Komprimierungsalgorithmen mit neuronalen Netzen sind nichts Neues. Die besten Komprimierungsalgorithmen, darunter PAQ, verwenden allesamt statistische Verfahren, und auch neuronale Netze kommen dabei keineswegs selten zum Einsatz. Schon das ihnen zugrunde liegende Context Mixing (https://en.wikipedia.org/wiki/Context_mixing) ist eine Anwendung neuronaler Netze, und auch für das von Bellard verwendete LSTM gibt es bereits Beispiele (https://github.com/byronknoll/lstm-compress). Bellards Beitrag liegt eher in der Leistungsoptimierung.

1 Kommentare

 
iolothebard 2019-07-16

Dass dafür Unicode-CJK- und Hangul-Bereiche verwendet werden ...

Wenn ich an den Albtraum von damals mit 2-Byte-Johab/Wansung denke, als erweiterte ASCII-Zeichen wie Koreanisch/chinesische Schriftzeichen aussahen ... (Outing als alter Hase)