1 Punkte von GN⁺ 2023-07-25 | 1 Kommentare | Auf WhatsApp teilen
  • Die Attention-Formel moderner KI enthält einen Off-by-one-Fehler, der die Komprimierung und Bereitstellung von Transformer-Modellen erschwert.
  • Dieser Fehler hängt mit Ausreißergewichten im Modell zusammen; diese Ausreißer sind deutlich größer als ihre Gegenstücke und verursachen Leistungsabfall sowie Schwierigkeiten bei der Quantisierung.
  • Der Bug steht mit der im Attention-Mechanismus verwendeten Softmax-Funktion in Zusammenhang, die für diese Aufgabe nicht geeignet ist.
  • Die vorgeschlagene Lösung besteht in einer kleinen Änderung der Softmax-Funktion, indem im Nenner eine 1 addiert wird, sodass Attention-Heads „nichts sagen“, wenn sie keine Informationen hinzufügen können.
  • Diese Änderung, Softmax Super-Mod oder QuietAttention, soll die Rückkopplungsschleife der Ausreißer beheben und die Quantisierung verbessern.
  • Um die Wirkung dieser Lösung experimentell zu überprüfen, kann man dem Eingabekontext einen 0-Vektor voranstellen und die Kurtosis der Gewichte sowie die Unendlichkeitsnorm der Aktivierungen beobachten.
  • Der Autor lädt zu Zusammenarbeit und Experimenten ein, um diese Lösung weiter zu erforschen und zu validieren.

1 Kommentare

 
GN⁺ 2023-07-25
Hacker-News-Meinungen
  • Der Autor schlägt vor, zum Nenner der Softmax-Funktion 1 hinzuzufügen.
  • Diese Änderung ermöglicht es dem Netzwerk, sich nicht für ein hohes Vertrauen in etwas zu entscheiden, indem es hohe oder niedrige Gewichte vergibt.
  • Einige Kommentierende bezweifeln die Bedeutung dieser Änderung und vermuten, dass ähnliche Kniffe schon früher verwendet wurden.
  • Andere loben den unakademischen Ton des Artikels und die Bereitschaft, neue Ideen zu erkunden.
  • Ein Kommentierender teilt eine persönliche Erfahrung darüber, einen Fehler in einem populären Algorithmus entdeckt zu haben, der anfangs von anderen ignoriert wurde.
  • Ein anderer Kommentierender lobt den Autor dafür, ein echtes Problem erkannt und eine einfache Lösung vorgeschlagen zu haben.
  • Allerdings fordern sie den Autor auf, mehr Belege und Erklärungen dafür zu liefern, dass diese Lösung die Feedback-Schleife von Ausreißern beheben wird.
  • Einige Kommentierende schlagen vor, dass zusätzliche Experimente und Feintuning nötig sind, um die vorgeschlagene Lösung zu validieren.
  • Ein Kommentierender verweist auf eine Arbeit aus dem Jahr 2020 und schlägt eine andere Attention-Formel vor, die Quantisierungsprobleme lösen könnte.
  • Es wird erwähnt, dass diese Methode, 1 zum Nenner hinzuzufügen, häufig verwendet wurde, bevor der Einsatz von Dummy-Token üblich wurde.
  • Einige Kommentierende kritisieren den Ton des Autors und zeigen sich überrascht über die mangelnde Bekanntheit dieser Technik in der Forschungsgemeinschaft.