Der Gegenangriff des Convolution-Imperiums

xguru · 2023-10-31T10:03:01+09:00

"ConvNets Match Vision Transformers at Scale" Es gibt die verbreitete Ansicht, dass ConvNets bei kleinen und mittleren Datensätzen gut abschneiden, bei sehr großen Datensätzen aber nicht mit Transformern, insbesondere Vision Transformers (ViT), mithalten können Die neueste Forschung von DeepMind stellt diese Vorstellung infrage Es galt als gegeben, dass die Skalierbarkeit von Transformern die von ConvNets übertrifft, doch die Belege dafür sind begrenzt Die Autoren verwenden die NFNet-Familie (Normalizer-Free ResNets) und erhöhen schrittweise Breite/Tiefe der Netze Vortraining auf JFT-4B, anschließend Fine-Tuning auf ImageNet mit SAM (Sharpness-Aware Minimization) Im Ergebnis zeigen sie eine gleichwertige Leistung zu ViT-Modellen Alle Modelle verbessern sich kontinuierlich, wenn zusätzliche Rechenleistung verfügbar ist

(substack.com/gonzoml)

6 Punkte von xguru 2023-10-31 | Noch keine Kommentare. | Auf WhatsApp teilen

"ConvNets Match Vision Transformers at Scale"
Es gibt die verbreitete Ansicht, dass ConvNets bei kleinen und mittleren Datensätzen gut abschneiden, bei sehr großen Datensätzen aber nicht mit Transformern, insbesondere Vision Transformers (ViT), mithalten können
Die neueste Forschung von DeepMind stellt diese Vorstellung infrage
- Es galt als gegeben, dass die Skalierbarkeit von Transformern die von ConvNets übertrifft, doch die Belege dafür sind begrenzt
- Die Autoren verwenden die NFNet-Familie (Normalizer-Free ResNets) und erhöhen schrittweise Breite/Tiefe der Netze
- Vortraining auf JFT-4B, anschließend Fine-Tuning auf ImageNet mit SAM (Sharpness-Aware Minimization)
- Im Ergebnis zeigen sie eine gleichwertige Leistung zu ViT-Modellen
- Alle Modelle verbessern sich kontinuierlich, wenn zusätzliche Rechenleistung verfügbar ist

Der Gegenangriff des Convolution-Imperiums

Verwandte Beiträge

Noch keine Kommentare.