1 Punkte von GN⁺ 2025-03-16 | Noch keine Kommentare. | Auf WhatsApp teilen

Abstract

  • In modernen neuronalen Netzen galten Normalisierungsschichten bislang als unverzichtbar.
  • Diese Studie zeigt, dass sich auch ohne Normalisierung die gleiche oder sogar eine bessere Leistung erzielen lässt.
  • Vorgestellt wird eine einfache Methode namens Dynamic Tanh (DyT), die Normalisierungsschichten ersetzen kann.
  • DyT erzielt in der Regel ohne Hyperparameter-Tuning eine mit normalisierten Modellen vergleichbare oder bessere Leistung.
  • Die Wirksamkeit von DyT wurde in verschiedenen Settings überprüft und stellt die Unverzichtbarkeit von Normalisierungsschichten infrage.

Implementierung

  • Das DyT-Modul lässt sich mit wenigen Zeilen PyTorch-Code implementieren.

Zentrale Erkenntnisse

  • Layer-Normalisierung funktioniert wie eine skalierte tanh-Funktion.
  • In frühen Schichten verhält sie sich überwiegend linear, in tiefen Schichten zeigt sie jedoch die für die tanh-Funktion typische S-Kurve.

Evaluation

  • Die Wirkung und Allgemeingültigkeit von DyT wurden über verschiedene Architekturen und Aufgaben hinweg bewertet.
  • In allen Fällen zeigten Transformers mit DyT eine ähnliche oder bessere Leistung als normalisierte Modelle.

Materialien

  • Weitere Details zur Studie sind über den Download des Papers verfügbar.
  • Details zur Implementierung sind im GitHub-Repository zu finden.

Noch keine Kommentare.

Noch keine Kommentare.