6 Punkte von xguru 2023-10-31 | Noch keine Kommentare. | Auf WhatsApp teilen
  • "ConvNets Match Vision Transformers at Scale"
  • Es gibt die verbreitete Ansicht, dass ConvNets bei kleinen und mittleren Datensätzen gut abschneiden, bei sehr großen Datensätzen aber nicht mit Transformern, insbesondere Vision Transformers (ViT), mithalten können
  • Die neueste Forschung von DeepMind stellt diese Vorstellung infrage
    • Es galt als gegeben, dass die Skalierbarkeit von Transformern die von ConvNets übertrifft, doch die Belege dafür sind begrenzt
    • Die Autoren verwenden die NFNet-Familie (Normalizer-Free ResNets) und erhöhen schrittweise Breite/Tiefe der Netze
    • Vortraining auf JFT-4B, anschließend Fine-Tuning auf ImageNet mit SAM (Sharpness-Aware Minimization)
    • Im Ergebnis zeigen sie eine gleichwertige Leistung zu ViT-Modellen
    • Alle Modelle verbessern sich kontinuierlich, wenn zusätzliche Rechenleistung verfügbar ist

Noch keine Kommentare.

Noch keine Kommentare.