- MVDRAM ist ein System, das GeMV-Operationen für die Inferenz von Low-Bit-LLMs mithilfe von unverändertem DRAM beschleunigt
- Es nutzt DRAM als GeMV-Engine und bietet dadurch einen hohen Durchsatz
- Es eliminiert die Kosten für die Voranordnung der Eingaben und die Umschaltung der Ausgabebits bei bestehenden PUD-Ansätzen
- Experimente zeigen, dass es bei Low-Bit-LLMs eine bessere Leistung als prozessorbasierte Implementierungen erzielt
- Es zeigt neue Möglichkeiten für AI-Hardware auf
MVDRAM: Beschleunigung von Low-Bit-LLMs mit unverändertem DRAM
- GeMV-Operationen bleiben ein wesentlicher Latenz-Engpass bei der Inferenz großer Sprachmodelle (LLMs)
- Processing-Using-DRAM (PUD) hat das Potenzial, DRAM als GeMV-Engine wiederzuverwenden
- Die Anwendung von PUD auf die LLM-Inferenzpipeline verursacht jedoch erheblichen Overhead
Der innovative Ansatz von MVDRAM
- MVDRAM koordiniert Prozessor und DRAM unter Nutzung von Datenfreigabemustern und mathematischer Linearität
- Dadurch werden die Kosten bestehender PUD-Ansätze beseitigt und GeMV-Operationen beschleunigt
Experimentelle Ergebnisse
- In Experimenten mit vier DDR4-DRAM-Modulen zeigte MVDRAM bei Low-Bit-LLMs (4 Bit oder weniger) eine bessere Leistung als prozessorbasierte Implementierungen
- Es erreichte bis zu 7,29-fache Beschleunigung und 30,5-fache Energieeffizienz
Umfassende Verbesserungen bei der LLM-Inferenz
- Bei quantisierten Low-Bit-Modellen mit 2 Bit bzw. 4 Bit wurde der Durchsatz um das 2,18-Fache bzw. 1,31-Fache verbessert
- Auch die Energieeffizienz stieg jeweils um das 3,04-Fache bzw. 2,35-Fache
Neue Möglichkeiten für AI-Hardware
- MVDRAM belegt das Potenzial, Standard-DRAM als LLM-Beschleuniger zu nutzen
- Es besitzt das Potenzial, neue Horizonte für AI-Hardware zu eröffnen
1 Kommentare
Hacker-News-Kommentare
Es gibt Informationen zu einem der frühen Vorschläge für Computing in DRAM.
Jemand merkt an, dass die Autorenlisten in den Referenzen 1 und 3 sehr lang sind.
Durch das absichtliche Senden von DRAM-Befehlen unter Verletzung der vom Hersteller vorgegebenen Timing-Parameter lässt sich massive Parallelverarbeitung erreichen.
Die Idee ist sehr originell und kreativ.
In der Hardware-Welt kann es riskant sein, Bugs auszunutzen.
Matrixoperationen werden direkt im DRAM selbst ausgeführt.
Es gibt eine Erwähnung der allgemeinen Matrix-Vektor-Multiplikation (GeMV).
Eine Meinung weist darauf hin, dass es unwissenschaftlich sei, die ursprüngliche Intelligent RAM (IRAM)-Quelle von 1997 nicht zu zitieren.
Jemand fragt sich, ob Matrixmultiplikation und andere Operationen von traditionellen CPUs in DRAM verlagert werden könnten.
Das könnte ein großartiger Weg sein, günstige Inferenzgeräte für große LLMs zu bauen.