2 Punkte von GN⁺ 2024-10-10 | Noch keine Kommentare. | Auf WhatsApp teilen

Addition für energieeffiziente Sprachmodelle

  • Forschungshintergrund

    • Große neuronale Netze verwenden den Großteil ihrer Rechenoperationen für Gleitkomma-Tensormultiplikationen.
    • Diese Studie zeigt, dass sich ein Gleitkomma-Multiplikator mit hoher Präzision durch einen einzelnen ganzzahligen Addierer annähern lässt.
  • L-Mul-Algorithmus

    • Vorgestellt wird L-Mul, ein Multiplikationsalgorithmus mit linearer Komplexität, der die Multiplikation von Gleitkommazahlen durch ganzzahlige Additionen annähert.
    • Der neue Algorithmus benötigt weniger Rechenressourcen als 8-Bit-Gleitkomma-Multiplikation und erreicht dabei eine höhere Präzision.
    • Da die Multiplikation von Gleitkommazahlen im Vergleich zu ganzzahligen Additionen deutlich mehr Energie verbraucht, kann der Einsatz von L-Mul in Tensor-Verarbeitungshardware die Energiekosten elementweiser Gleitkomma-Tensormultiplikationen um bis zu 95 % und die von Skalarprodukten um bis zu 80 % senken.
  • Theoretische und experimentelle Evaluation

    • Es werden der theoretische erwartete Fehler von L-Mul berechnet und der Algorithmus in verschiedenen textuellen, visuellen und symbolischen Aufgaben wie Sprachverständnis, strukturellem Schlussfolgern, Mathematik und Common-Sense-Question-Answering evaluiert.
    • Ergebnisse numerischer Analysen stimmen mit den theoretischen Fehlerschätzungen überein und zeigen, dass L-Mul mit 4-Bit-Mantisse eine ähnliche Präzision wie float8_e4m3-Multiplikation erreicht, während L-Mul mit 3-Bit-Mantisse float8_e5m2 übertrifft.
    • Bemerkenswerte Benchmark-Ergebnisse zeigen, dass die direkte Anwendung von L-Mul auf den Attention-Mechanismus nahezu verlustfrei ist.
    • Werden in Transformer-Modellen alle Gleitkomma-Multiplikationen durch L-Mul mit 3-Bit-Mantisse ersetzt, wird bei Fine-Tuning und Inferenz eine Präzision erreicht, die der Verwendung von float8_e4m3 mit Akkumulationspräzision entspricht.

Zusammenfassung von GN⁺

  • Der L-Mul-Algorithmus zeigt einen Weg, die Energieeffizienz deutlich zu verbessern und zugleich hohe Präzision zu bewahren.
  • Er verdeutlicht das Potenzial, das Problem des Energieverbrauchs von Gleitkommaoperationen zu entschärfen, insbesondere bei großen neuronalen Netzmodellen.
  • Die Studie dürfte in Bereichen mit hoher Relevanz für Energieeinsparungen auf großes Interesse stoßen; ein anderes Projekt mit ähnlicher Zielrichtung ist Googles TensorFlow Lite.

Noch keine Kommentare.

Noch keine Kommentare.