- Lernt durch die Erstellung eines internen Modells, das abstrakte Repräsentationen von Bildern vergleicht, anstatt die Pixel selbst zu vergleichen
- Liefert starke Leistung bei Computer-Vision-Aufgaben und ist deutlich effizienter. Kann ohne umfangreiches Fine-Tuning vielfältig eingesetzt werden
- Ein visueller Transformer mit 632M Parametern kann mit nur 16 A100-GPUs in weniger als 72 Stunden trainiert werden
- Erreicht SOTA-Leistung bei der ImageNet-Low-Shot-Klassifikation mit nur 12 gelabelten Beispielen pro Klasse
- Das Paper wird auf der CVPR 2023 vorgestellt, und auch der Trainingscode sowie die Modell-Checkpoints werden als Open Source veröffentlicht
- Image Joint Embedding Predictive Architecture
1 Kommentare
Es scheint, als sei aufgrund eines Tippfehlers „umfangreich“ nicht korrekt geschrieben.