1 Punkte von GN⁺ 2023-09-21 | 1 Kommentare | Auf WhatsApp teilen
  • Artikel darüber, wie mit GZIP auf dem MNIST-Datensatz in weniger als 10 Zeilen Code eine Genauigkeit von 78 % erreicht wird
  • Der Autor betont, dass die Neuerung dieses Beitrags nicht darin besteht, Ergebnisse auf dem neuesten Stand der Technik zu erzielen, sondern das Potenzial von Kompression als ungewöhnliches, modellfreies Klassifikationswerkzeug zu zeigen
  • Der bereitgestellte Code verwendet GZIP und NCD (Normalized Compression Distance) als Ähnlichkeitsmaß und k-NN (k-Nearest Neighbors) für die Klassifikation
  • GZIP wird als Werkzeug verwendet, um die Komplexität oder den Informationsgehalt einzelner Datenpunkte zu messen, und NCD liefert ein normalisiertes Maß dafür, wie ähnlich sich zwei Datenpunkte sind
  • Der Algorithmus berechnet die NCD zu allen Trainingsbeispielen, sortiert diese und wählt die k kleinsten Distanzen aus. Unter diesen k=5 nächsten Nachbarn wird die Mehrheitsklasse als Label des Testbeispiels vorhergesagt
  • Der Autor räumt ein, dass dieser Ansatz rechnerisch teuer ist und zur Messung der Genauigkeit nur ein Teil der Testbilder verwendet wurde
  • Der Autor stellt für ein besseres Verständnis auch eine weniger verschleierte Version des Algorithmus bereit
  • Der Autor verweist auf einen ähnlichen Ansatz von Andreas Kirsch aus dem Jahr 2019, der etwa 35 % Genauigkeit erreichte
  • Der Autor kam darauf, Kompression als Mechanismus zur Bildklassifikation zu verwenden, nachdem er einen Beitrag über Textgenerierung aus Datenkompression und ein Paper über parameterlose Textklassifikation gelesen hatte
  • Der Autor hatte zuvor an Bildkompression für Edge-Computer-Vision gearbeitet und war daran interessiert, diese Technik auf den MNIST-Datensatz anzuwenden

1 Kommentare

 
GN⁺ 2023-09-21
Hacker-News-Kommentare
  • Artikel über das Erreichen von 78 % Genauigkeit auf dem MNIST-Datensatz mit GZIP in weniger als 10 Zeilen Code
  • Kommentierende haben versucht, die Distanzfunktion im Code durch einfachere Metriken zu ersetzen, wodurch sich die Genauigkeit verbesserte und der Rechenaufwand sank
    • Die euklidische Distanz erreicht nach der Binärisierung der Bilder etwa 93 % Genauigkeit in rund 0,5 Sekunden
    • Die Jaccard-Distanz erreicht nach der Binärisierung der Bilder etwa 94 % Genauigkeit in rund 0,7 Sekunden
    • Die Dice-Dissimilarität erreicht nach der Binärisierung der Bilder etwa 94 % Genauigkeit in rund 0,8 Sekunden
  • Andere Techniken zum Vergleich zeigen: Linear SVC mit 92 % Genauigkeit, SVC rbf mit 96,4 % Genauigkeit, SVC poly mit 94,5 % Genauigkeit, logistische Regression mit 89 % Genauigkeit und Naive Bayes mit 81 % Genauigkeit
  • Kommentierende merken an, dass der Code zwar elegant und kompakt sei, 78 % Genauigkeit für MNIST jedoch als niedrig gelten und dass ein in Tensorflow geschriebenes Dummy-Modell leicht 90 % Genauigkeit erreicht
  • Die besten Modelle für MNIST liegen bei einer Genauigkeit von 99,87 %
  • Einige Kommentierende schlagen vor, die normalisierte Kompressionsdistanz (NCD) durch euklidische Distanz zu ersetzen, was die Testgenauigkeit um 15 % erhöhen und viel Rechenaufwand einsparen könne
  • Einige Kommentierende schlagen vor, dass der MNIST-Datensatz in den Ruhestand gehen sollte, da es relativ einfach geworden ist, darauf hohe Genauigkeit zu erreichen
  • Es gibt eine Diskussion über das Potenzial, in stark komprimierten Daten Muster zu finden, um eine bessere Kompression zu ermöglichen
  • Einige Kommentierende interessieren sich für Informationsdistanz-Metriken für allgemeine Kompressoren und alternative Sprachmodelle
  • Ein Kommentierender erwähnt den Einsatz eines Aufmerksamkeitsmechanismus, der die normalisierte Kompressionsdistanz (gzip) mit diskreter Faltung zwischen Kandidatensequenzen kombiniert