1 Punkte von GN⁺ 2024-05-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Vision Transformer benötigen Register

  • Autoren: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
  • Mündlicher Vortrag auf der ICLR 2024
  • Veröffentlicht am 16. Januar 2024, zuletzt überarbeitet am 12. April 2024

Zusammenfassung

  • In den Feature-Maps von Vision-Transformer-(ViT-)Modellen, die mit überwachtem und selbstüberwachtem Lernen trainiert wurden, werden Artefakte gefunden und charakterisiert
  • Während der Inferenz auftretende Tokens mit hoher Norm in überwiegend informationsarmen Hintergrundbereichen entsprechen Artefakten, bei denen diese Tokens für interne Berechnungen wiederverwendet werden
  • Es wird eine einfache, aber wirksame Lösung vorgeschlagen: zusätzliche Tokens in der ViT-Eingabesequenz, die als „Register“ bezeichnet werden
  • Sowohl bei überwachten als auch bei selbstüberwachten Modellen löst dies das Problem vollständig, setzt einen neuen SOTA für selbstüberwachte visuelle Modelle bei dichten visuellen Vorhersageaufgaben, ermöglicht Objekterkennungsmethoden mit größeren Modellen und führt vor allem zu glatteren Feature-Maps und Attention-Maps für nachgelagerte visuelle Verarbeitung

Experimente und Analyse

  • Die Untersuchung der Artefakte ist sehr originell und gründlich. Diagramme und Erläuterungen sind sehr aufschlussreich, und die Experimente sind umfassend
  • Die Einbeziehung der vorgeschlagenen Register-Tokens ist sehr einfach und elegant und liefert besser interpretierbare Attention-Masken
  • Die Aussagen zu den Einschränkungen werden sehr geschätzt
  • Das Paper ist leicht nachzuvollziehen, und die Visualisierungen helfen dabei, Intuition zu vermitteln

Verbesserungen

  • Es fehlen Experimente, die zeigen, dass durch das Hinzufügen von Register-Tokens das Verhalten der Ausreißer-Tokens beseitigt wird. Es wäre interessant zu prüfen, ob dies im vorgeschlagenen Modell an Bild-/Register-Tokens weitergegeben wird
  • Die Diskussion der Modellleistung bei unüberwachter Objekterkennung ist begrenzt und stimmt nicht mit den Ergebnissen überein
  • Die Zugewinne von DINOv2+reg sind beeindruckend, aber es braucht mehr Diskussion oder qualitative Beispiele dazu, warum dies nicht mit DINO übereinstimmt
  • Es wird gesagt, dass Register bei allen Modellen die Leistung der unüberwachten Objekterkennung verbessern, aber bei OpenCLIP verschlechtert sich die Leistung stattdessen

Meinung von GN⁺

  • Neben Registern könnte es weitere Methoden geben, um die begrenzte Redundanz auf Patch-Ebene zu verringern. Es wäre interessant zu sehen, ob ein ähnlicher Effekt auch bei anderen selbstüberwachten Modellen beobachtet wird, bei denen die Rekonstruktion auf Patch-Ebene die Redundanz der Repräsentation mindern sollte, etwa bei MAE

  • Die Leistungsverschlechterung bei OpenCLIP scheint zusätzliche Erklärung zu erfordern. Außerdem fehlt eine Erklärung dafür, warum die LOST-Leistung von DINO besser ist als die von DINOv2

  • Es ist überraschend, dass DINOv2 dieses Verhalten zeigt, obwohl es eine dichte Masked-Image-Modeling-Zielfunktion verwendet. Es stellt sich die Frage, warum das Ziel für maskierte Bilder dieses Verhalten nicht verhindert hat, obwohl es Informationsspeicherung in den Patch-Features erfordert

  • Es scheint notwendig zu sein, die Verzerrungen des Datensatzes selbst von den Verzerrungen der Labels zu unterscheiden. SSL ist zwar weniger von Label-Bias betroffen, aber Verzerrungen je nach Datenquelle wie Instagram vs. iNaturalist können weiterhin bestehen

  • Es wird nahegelegt, dass Ausreißer-Tokens in größeren Modellen auftreten, aber in den Base-Modellen von CLIP/DEIT ist das nicht der Fall. Ein Kommentar dazu am Ende von Abschnitt 2.2 wäre hilfreich

  • Es wäre interessant zu wissen, wie sich die unüberwachte Objekterkennungsleistung des DINO-Modells mit hinzugefügten Registern im Vergleich zu anderen Modellen mit ähnlichen Fähigkeiten wie OpenAIs CLIP oder Googles LiT verhält

  • Es wäre gut zu analysieren, ob das in ViT-basierten Modellen beobachtete Phänomen der Ausreißer-Tokens auch bei CNN-basierten Modellen auftritt oder ob es spezifisch für die Transformer-Architektur ist

  • Für den praktischen Einsatz wäre eine Richtlinie hilfreich, ob bei der Verwendung von Register-Tokens durch den höheren Rechenaufwand Leistungseinbußen entstehen und wie sich die optimale Anzahl an Registern bestimmen lässt

Noch keine Kommentare.

Noch keine Kommentare.