Abstract
- In modernen neuronalen Netzen galten Normalisierungsschichten bislang als unverzichtbar.
- Diese Studie zeigt, dass sich auch ohne Normalisierung die gleiche oder sogar eine bessere Leistung erzielen lässt.
- Vorgestellt wird eine einfache Methode namens Dynamic Tanh (DyT), die Normalisierungsschichten ersetzen kann.
- DyT erzielt in der Regel ohne Hyperparameter-Tuning eine mit normalisierten Modellen vergleichbare oder bessere Leistung.
- Die Wirksamkeit von DyT wurde in verschiedenen Settings überprüft und stellt die Unverzichtbarkeit von Normalisierungsschichten infrage.
Implementierung
- Das DyT-Modul lässt sich mit wenigen Zeilen PyTorch-Code implementieren.
Zentrale Erkenntnisse
- Layer-Normalisierung funktioniert wie eine skalierte
tanh-Funktion.
- In frühen Schichten verhält sie sich überwiegend linear, in tiefen Schichten zeigt sie jedoch die für die
tanh-Funktion typische S-Kurve.
Evaluation
- Die Wirkung und Allgemeingültigkeit von DyT wurden über verschiedene Architekturen und Aufgaben hinweg bewertet.
- In allen Fällen zeigten Transformers mit DyT eine ähnliche oder bessere Leistung als normalisierte Modelle.
Materialien
- Weitere Details zur Studie sind über den Download des Papers verfügbar.
- Details zur Implementierung sind im GitHub-Repository zu finden.
Noch keine Kommentare.