1 Punkte von GN⁺ 2025-05-06 | 1 Kommentare | Auf WhatsApp teilen
  • MVDRAM ist ein System, das GeMV-Operationen für die Inferenz von Low-Bit-LLMs mithilfe von unverändertem DRAM beschleunigt
  • Es nutzt DRAM als GeMV-Engine und bietet dadurch einen hohen Durchsatz
  • Es eliminiert die Kosten für die Voranordnung der Eingaben und die Umschaltung der Ausgabebits bei bestehenden PUD-Ansätzen
  • Experimente zeigen, dass es bei Low-Bit-LLMs eine bessere Leistung als prozessorbasierte Implementierungen erzielt
  • Es zeigt neue Möglichkeiten für AI-Hardware auf

MVDRAM: Beschleunigung von Low-Bit-LLMs mit unverändertem DRAM

  • GeMV-Operationen bleiben ein wesentlicher Latenz-Engpass bei der Inferenz großer Sprachmodelle (LLMs)
  • Processing-Using-DRAM (PUD) hat das Potenzial, DRAM als GeMV-Engine wiederzuverwenden
  • Die Anwendung von PUD auf die LLM-Inferenzpipeline verursacht jedoch erheblichen Overhead

Der innovative Ansatz von MVDRAM

  • MVDRAM koordiniert Prozessor und DRAM unter Nutzung von Datenfreigabemustern und mathematischer Linearität
  • Dadurch werden die Kosten bestehender PUD-Ansätze beseitigt und GeMV-Operationen beschleunigt

Experimentelle Ergebnisse

  • In Experimenten mit vier DDR4-DRAM-Modulen zeigte MVDRAM bei Low-Bit-LLMs (4 Bit oder weniger) eine bessere Leistung als prozessorbasierte Implementierungen
  • Es erreichte bis zu 7,29-fache Beschleunigung und 30,5-fache Energieeffizienz

Umfassende Verbesserungen bei der LLM-Inferenz

  • Bei quantisierten Low-Bit-Modellen mit 2 Bit bzw. 4 Bit wurde der Durchsatz um das 2,18-Fache bzw. 1,31-Fache verbessert
  • Auch die Energieeffizienz stieg jeweils um das 3,04-Fache bzw. 2,35-Fache

Neue Möglichkeiten für AI-Hardware

  • MVDRAM belegt das Potenzial, Standard-DRAM als LLM-Beschleuniger zu nutzen
  • Es besitzt das Potenzial, neue Horizonte für AI-Hardware zu eröffnen

1 Kommentare

 
GN⁺ 2025-05-06
Hacker-News-Kommentare
  • Es gibt Informationen zu einem der frühen Vorschläge für Computing in DRAM.

    • Es gibt eine erste Demonstration mit kommerziellen Bauteilen.
    • Die Implementierung erfolgt mit einem Tool namens DRAM Bender.
    • Es gibt eine Arbeit zu jüngsten Fortschritten bei Processing-in-DRAM.
  • Jemand merkt an, dass die Autorenlisten in den Referenzen 1 und 3 sehr lang sind.

    • Ein Artikel von 2016, auf den gehofft wurde, ist nicht enthalten.
    • Ein Artikel von 2019 ist enthalten.
    • Das Verhalten von DRAM außerhalb der Spezifikation, insbesondere Kopierfunktionen, steht mit berüchtigten Bugs in Verbindung.
  • Durch das absichtliche Senden von DRAM-Befehlen unter Verletzung der vom Hersteller vorgegebenen Timing-Parameter lässt sich massive Parallelverarbeitung erreichen.

    • Das ist eine Herausforderung für binäre Blobs zum DRAM-Training.
  • Die Idee ist sehr originell und kreativ.

    • An Details zu arbeiten kann lohnend sein.
  • In der Hardware-Welt kann es riskant sein, Bugs auszunutzen.

    • In der Software-Welt ist es keine gute Praxis, Bugs einer Plattform auszunutzen, um Funktionen zu aktivieren.
    • Wenn Bugs behoben werden, kann sich ein System unerwartet verhalten.
  • Matrixoperationen werden direkt im DRAM selbst ausgeführt.

    • Das ist eine sehr interessante und überraschende Idee.
  • Es gibt eine Erwähnung der allgemeinen Matrix-Vektor-Multiplikation (GeMV).

    • Manche verfügen nicht über ein ausreichendes mathematisches Verständnis.
    • Quaternionen wurden populär, weil sie rechnerisch weniger komplex als Matrizen sind.
    • Manche fragen sich auch, ob es Fälle gibt, in denen LLMs mit Quaternionen aufgebaut wurden.
  • Eine Meinung weist darauf hin, dass es unwissenschaftlich sei, die ursprüngliche Intelligent RAM (IRAM)-Quelle von 1997 nicht zu zitieren.

  • Jemand fragt sich, ob Matrixmultiplikation und andere Operationen von traditionellen CPUs in DRAM verlagert werden könnten.

    • Es gibt die Frage, ob eine solche Verlagerung Samsung und anderen Vorteile verschaffen könnte.
    • Auch Neugier darüber, was dann mit NVIDIA und anderen wäre.
  • Das könnte ein großartiger Weg sein, günstige Inferenzgeräte für große LLMs zu bauen.