PowerInfer – Schnelles LLM-Serving mit Consumer-GPUs

xguru · 2023-12-21T10:51:02+09:00

Auf einer RTX 4090 (24G) ist die Ausführung von Falcon(ReLU)-40B-FP16 11-mal schneller als mit llama.cpp Eine CPU/GPU-Hybrid-LLM-Inferenz-Engine, die die Activation Locality des Geräts nutzt Unterscheidet zwischen einigen Hot-Neuronen, die konsistent aktiviert werden, und der Mehrzahl der Cold-Neuronen, die sich je nach Eingabe ändern Hot-Neuronen werden vorab in die GPU geladen und schnell aktiviert, Cold-Neuronen werden auf der CPU berechnet, wodurch der GPU-Speicherbedarf und die Datenübertragung zwischen CPU und GPU deutlich reduziert werden Integriert einen adaptiven Prädiktor und einen neuronensensitiven Sparse-Operator, um die Effizienz von Neuronenaktivierung und Berechnungssparsität zu optimieren Erreicht auf einer einzelnen NVIDIA-RTX-4090-GPU über verschiedene LLMs hinweg (einschließlich OPT-175B) eine durchschnittliche Token-Generierungsrate von 13,20 Token/s und maximal 29,08 Token/s Das liegt nur 18 % unter dem Wert, den eine High-End-Server-GPU vom Typ A100 erreicht Bei gleichbleibender Modellgenauigkeit übertrifft die Leistung llama.cpp um bis zu das 11,69-Fache deutlich

(github.com/SJTU-IPADS)

16 Punkte von xguru 2023-12-21 | 1 Kommentare | Auf WhatsApp teilen

Auf einer RTX 4090 (24G) ist die Ausführung von Falcon(ReLU)-40B-FP16 11-mal schneller als mit llama.cpp
Eine CPU/GPU-Hybrid-LLM-Inferenz-Engine, die die Activation Locality des Geräts nutzt
- Unterscheidet zwischen einigen Hot-Neuronen, die konsistent aktiviert werden, und der Mehrzahl der Cold-Neuronen, die sich je nach Eingabe ändern
- Hot-Neuronen werden vorab in die GPU geladen und schnell aktiviert, Cold-Neuronen werden auf der CPU berechnet, wodurch der GPU-Speicherbedarf und die Datenübertragung zwischen CPU und GPU deutlich reduziert werden
Integriert einen adaptiven Prädiktor und einen neuronensensitiven Sparse-Operator, um die Effizienz von Neuronenaktivierung und Berechnungssparsität zu optimieren
Erreicht auf einer einzelnen NVIDIA-RTX-4090-GPU über verschiedene LLMs hinweg (einschließlich OPT-175B) eine durchschnittliche Token-Generierungsrate von 13,20 Token/s und maximal 29,08 Token/s
- Das liegt nur 18 % unter dem Wert, den eine High-End-Server-GPU vom Typ A100 erreicht
- Bei gleichbleibender Modellgenauigkeit übertrifft die Leistung llama.cpp um bis zu das 11,69-Fache deutlich

1 Kommentare

cosine20 2023-12-28

Eine 4090 ist zwar eine Consumer-GPU, klar, haha …

PowerInfer – Schnelles LLM-Serving mit Consumer-GPUs

Verwandte Beiträge

1 Kommentare