- Die Attention-Formel moderner KI enthält einen Off-by-one-Fehler, der die Komprimierung und Bereitstellung von Transformer-Modellen erschwert.
- Dieser Fehler hängt mit Ausreißergewichten im Modell zusammen; diese Ausreißer sind deutlich größer als ihre Gegenstücke und verursachen Leistungsabfall sowie Schwierigkeiten bei der Quantisierung.
- Der Bug steht mit der im Attention-Mechanismus verwendeten Softmax-Funktion in Zusammenhang, die für diese Aufgabe nicht geeignet ist.
- Die vorgeschlagene Lösung besteht in einer kleinen Änderung der Softmax-Funktion, indem im Nenner eine 1 addiert wird, sodass Attention-Heads „nichts sagen“, wenn sie keine Informationen hinzufügen können.
- Diese Änderung, Softmax Super-Mod oder QuietAttention, soll die Rückkopplungsschleife der Ausreißer beheben und die Quantisierung verbessern.
- Um die Wirkung dieser Lösung experimentell zu überprüfen, kann man dem Eingabekontext einen 0-Vektor voranstellen und die Kurtosis der Gewichte sowie die Unendlichkeitsnorm der Aktivierungen beobachten.
- Der Autor lädt zu Zusammenarbeit und Experimenten ein, um diese Lösung weiter zu erforschen und zu validieren.
1 Kommentare
Hacker-News-Meinungen