5 Punkte von xguru 2023-06-16 | 1 Kommentare | Auf WhatsApp teilen
  • Lernt durch die Erstellung eines internen Modells, das abstrakte Repräsentationen von Bildern vergleicht, anstatt die Pixel selbst zu vergleichen
  • Liefert starke Leistung bei Computer-Vision-Aufgaben und ist deutlich effizienter. Kann ohne umfangreiches Fine-Tuning vielfältig eingesetzt werden
  • Ein visueller Transformer mit 632M Parametern kann mit nur 16 A100-GPUs in weniger als 72 Stunden trainiert werden
    • Erreicht SOTA-Leistung bei der ImageNet-Low-Shot-Klassifikation mit nur 12 gelabelten Beispielen pro Klasse
  • Das Paper wird auf der CVPR 2023 vorgestellt, und auch der Trainingscode sowie die Modell-Checkpoints werden als Open Source veröffentlicht
  • Image Joint Embedding Predictive Architecture

1 Kommentare

 
libner 2023-06-16

Es scheint, als sei aufgrund eines Tippfehlers „umfangreich“ nicht korrekt geschrieben.