- Die Autoren wenden kNN auf komprimierte Dokumente an und verwenden dabei eine Distanzfunktion namens „normalisierte Kompressionsdistanz“ (NCD).
- Diese Methode erzielt bei Zero-Shot-Klassifikationsaufgaben eine bessere Leistung als BERT.
- Wenn sich viele Wörter überschneiden, ist Gzip stark, während DNNs bei semantischer Ähnlichkeit besser sind.
- Die Ergebnisse sind interessant, aber nicht ganz so spannend, wie sie klingen.
- Bei Daten außerhalb des Verteilungsbereichs liefert BERT weiterhin die bessere Leistung.
- Sowohl Kompressionsalgorithmen als auch ML-Modelle sind Formen der Kompression, und es könnte grundlegende Eigenschaften geben, die die Leistungsfähigkeit menschlicher Sprache und von Daten erklären.
- Der Link sollte auf das Paper unter der angegebenen URL verweisen.
- Ähnliche Textfragmente lassen sich besser komprimieren als andere Fragmente.
- Gzip könnte für die Kompression besser geeignet sein, weil es Eingaben auf eine Weise repräsentiert, die ihre Erkennung und Kennzeichnung ermöglicht.
- Bei Wörtern wie „not“, die die Bedeutung eines Satzes umkehren, könnte Gzip Schwierigkeiten haben.```
1 Kommentare
Hacker-News-Kommentar