- "ConvNets Match Vision Transformers at Scale"
- Es gibt die verbreitete Ansicht, dass ConvNets bei kleinen und mittleren Datensätzen gut abschneiden, bei sehr großen Datensätzen aber nicht mit Transformern, insbesondere Vision Transformers (ViT), mithalten können
- Die neueste Forschung von DeepMind stellt diese Vorstellung infrage
- Es galt als gegeben, dass die Skalierbarkeit von Transformern die von ConvNets übertrifft, doch die Belege dafür sind begrenzt
- Die Autoren verwenden die NFNet-Familie (Normalizer-Free ResNets) und erhöhen schrittweise Breite/Tiefe der Netze
- Vortraining auf JFT-4B, anschließend Fine-Tuning auf ImageNet mit SAM (Sharpness-Aware Minimization)
- Im Ergebnis zeigen sie eine gleichwertige Leistung zu ViT-Modellen
- Alle Modelle verbessern sich kontinuierlich, wenn zusätzliche Rechenleistung verfügbar ist
Noch keine Kommentare.