Addition für energieeffiziente Sprachmodelle
-
Forschungshintergrund
- Große neuronale Netze verwenden den Großteil ihrer Rechenoperationen für Gleitkomma-Tensormultiplikationen.
- Diese Studie zeigt, dass sich ein Gleitkomma-Multiplikator mit hoher Präzision durch einen einzelnen ganzzahligen Addierer annähern lässt.
-
L-Mul-Algorithmus
- Vorgestellt wird L-Mul, ein Multiplikationsalgorithmus mit linearer Komplexität, der die Multiplikation von Gleitkommazahlen durch ganzzahlige Additionen annähert.
- Der neue Algorithmus benötigt weniger Rechenressourcen als 8-Bit-Gleitkomma-Multiplikation und erreicht dabei eine höhere Präzision.
- Da die Multiplikation von Gleitkommazahlen im Vergleich zu ganzzahligen Additionen deutlich mehr Energie verbraucht, kann der Einsatz von L-Mul in Tensor-Verarbeitungshardware die Energiekosten elementweiser Gleitkomma-Tensormultiplikationen um bis zu 95 % und die von Skalarprodukten um bis zu 80 % senken.
-
Theoretische und experimentelle Evaluation
- Es werden der theoretische erwartete Fehler von L-Mul berechnet und der Algorithmus in verschiedenen textuellen, visuellen und symbolischen Aufgaben wie Sprachverständnis, strukturellem Schlussfolgern, Mathematik und Common-Sense-Question-Answering evaluiert.
- Ergebnisse numerischer Analysen stimmen mit den theoretischen Fehlerschätzungen überein und zeigen, dass L-Mul mit 4-Bit-Mantisse eine ähnliche Präzision wie
float8_e4m3-Multiplikation erreicht, während L-Mul mit 3-Bit-Mantissefloat8_e5m2übertrifft. - Bemerkenswerte Benchmark-Ergebnisse zeigen, dass die direkte Anwendung von L-Mul auf den Attention-Mechanismus nahezu verlustfrei ist.
- Werden in Transformer-Modellen alle Gleitkomma-Multiplikationen durch L-Mul mit 3-Bit-Mantisse ersetzt, wird bei Fine-Tuning und Inferenz eine Präzision erreicht, die der Verwendung von
float8_e4m3mit Akkumulationspräzision entspricht.
Zusammenfassung von GN⁺
- Der L-Mul-Algorithmus zeigt einen Weg, die Energieeffizienz deutlich zu verbessern und zugleich hohe Präzision zu bewahren.
- Er verdeutlicht das Potenzial, das Problem des Energieverbrauchs von Gleitkommaoperationen zu entschärfen, insbesondere bei großen neuronalen Netzmodellen.
- Die Studie dürfte in Bereichen mit hoher Relevanz für Energieeinsparungen auf großes Interesse stoßen; ein anderes Projekt mit ähnlicher Zielrichtung ist Googles TensorFlow Lite.
Noch keine Kommentare.