1 Punkte von GN⁺ 2023-07-18 | 1 Kommentare | Auf WhatsApp teilen
  • Das kürzlich auf Twitter beachtete Paper „Textklassifikation „ohne Lernen“: parameterfreie Klassifikation mit Kompressoren“
  • Der Autor hat den Source Code geprüft, um die Ergebnisse zu reproduzieren, und dabei Bugs oder unerwartete Entscheidungen im kNN-Code entdeckt.
  • Aufgrund eines Bugs im Code fallen die Genauigkeitswerte dieser Methode höher aus als erwartet.
  • In Tabelle 5 des Papers zeigt die gzip-Methode eine bessere Leistung als andere neuronale Verfahren.
  • Der Autor hat die Zahlen neu berechnet und festgestellt, dass die korrigierten Ergebnisse die Schlussfolgerungen des Experiments deutlich verändert haben.
  • Das Paper verwendete einen kNN-Klassifikator mit k=2, was für die kNN-Klassifikation eine ungewöhnliche Wahl ist.
  • Im Source Code gibt es eine unerwartete Strategie zur Entscheidung bei Gleichstand, die die berichtete Genauigkeit beeinflusst.
  • Der Autor stellt eine eigene Implementierung bereit, um die Ergebnisse mit einer anderen Strategie zur Entscheidung bei Gleichstand zu vergleichen.
  • Die neu berechneten Ergebnisse zeigen, dass der ursprüngliche Code und die Implementierung des Autors ähnliche Resultate liefern.
  • Es bleiben weiterhin Fragen zur hohen Genauigkeit des philippinischen Datensatzes und zu den kleinen Unterschieden zwischen den Ergebnissen von „table5“ und „code“ offen.

1 Kommentare

 
GN⁺ 2023-07-18
Hacker-News-Kommentare
  • Der Fehler im Paper "gzip beats BERT" ist ein Beispiel für einen subtilen methodischen Fehler im ML-Bereich.
  • Der Einsatz von Kompressionsalgorithmen in ML ist kein "Free Lunch" und bringt möglicherweise keine besondere Magie hervor.
  • Der Autor des Blogposts hat ein GitHub-Issue zu dem Paper eingereicht.
  • Gute Wissenschaft braucht gutes Software Engineering, und Fehler in Experimenten sind häufig.
  • Der Blogpost zu diesem Problem wird dankbar aufgenommen, weil er das Problem beleuchtet.
  • Die Wahl von kNN als Klassifikator im Paper wirft Fragen auf, und alternative Algorithmen werden vorgeschlagen.
  • Die Ergebnisse des Papers haben Fragen dazu aufgeworfen, wie ein Kompressionsalgorithmus ein LLM schlagen könnte.
  • Personen, die zu dem Paper große Behauptungen aufgestellt haben, müssen diese möglicherweise überdenken.
  • Der Blogpost hat auf Twitter weitere Diskussionen und Analysen ausgelöst.
  • Es wurde die Möglichkeit aufgeworfen, dass bei den Ergebnissen des Papers zufällig auftretende Gleichstände berücksichtigt werden müssen.