- Artikel darüber, wie mit GZIP auf dem MNIST-Datensatz in weniger als 10 Zeilen Code eine Genauigkeit von 78 % erreicht wird
- Der Autor betont, dass die Neuerung dieses Beitrags nicht darin besteht, Ergebnisse auf dem neuesten Stand der Technik zu erzielen, sondern das Potenzial von Kompression als ungewöhnliches, modellfreies Klassifikationswerkzeug zu zeigen
- Der bereitgestellte Code verwendet GZIP und NCD (Normalized Compression Distance) als Ähnlichkeitsmaß und k-NN (k-Nearest Neighbors) für die Klassifikation
- GZIP wird als Werkzeug verwendet, um die Komplexität oder den Informationsgehalt einzelner Datenpunkte zu messen, und NCD liefert ein normalisiertes Maß dafür, wie ähnlich sich zwei Datenpunkte sind
- Der Algorithmus berechnet die NCD zu allen Trainingsbeispielen, sortiert diese und wählt die k kleinsten Distanzen aus. Unter diesen k=5 nächsten Nachbarn wird die Mehrheitsklasse als Label des Testbeispiels vorhergesagt
- Der Autor räumt ein, dass dieser Ansatz rechnerisch teuer ist und zur Messung der Genauigkeit nur ein Teil der Testbilder verwendet wurde
- Der Autor stellt für ein besseres Verständnis auch eine weniger verschleierte Version des Algorithmus bereit
- Der Autor verweist auf einen ähnlichen Ansatz von Andreas Kirsch aus dem Jahr 2019, der etwa 35 % Genauigkeit erreichte
- Der Autor kam darauf, Kompression als Mechanismus zur Bildklassifikation zu verwenden, nachdem er einen Beitrag über Textgenerierung aus Datenkompression und ein Paper über parameterlose Textklassifikation gelesen hatte
- Der Autor hatte zuvor an Bildkompression für Edge-Computer-Vision gearbeitet und war daran interessiert, diese Technik auf den MNIST-Datensatz anzuwenden
1 Kommentare
Hacker-News-Kommentare