- Auf einer RTX 4090 (24G) ist die Ausführung von Falcon(ReLU)-40B-FP16 11-mal schneller als mit llama.cpp
- Eine CPU/GPU-Hybrid-LLM-Inferenz-Engine, die die Activation Locality des Geräts nutzt
- Unterscheidet zwischen einigen Hot-Neuronen, die konsistent aktiviert werden, und der Mehrzahl der Cold-Neuronen, die sich je nach Eingabe ändern
- Hot-Neuronen werden vorab in die GPU geladen und schnell aktiviert, Cold-Neuronen werden auf der CPU berechnet, wodurch der GPU-Speicherbedarf und die Datenübertragung zwischen CPU und GPU deutlich reduziert werden
- Integriert einen adaptiven Prädiktor und einen neuronensensitiven Sparse-Operator, um die Effizienz von Neuronenaktivierung und Berechnungssparsität zu optimieren
- Erreicht auf einer einzelnen NVIDIA-RTX-4090-GPU über verschiedene LLMs hinweg (einschließlich OPT-175B) eine durchschnittliche Token-Generierungsrate von 13,20 Token/s und maximal 29,08 Token/s
- Das liegt nur 18 % unter dem Wert, den eine High-End-Server-GPU vom Typ A100 erreicht
- Bei gleichbleibender Modellgenauigkeit übertrifft die Leistung llama.cpp um bis zu das 11,69-Fache deutlich
1 Kommentare
Eine 4090 ist zwar eine Consumer-GPU, klar, haha …