16 Punkte von xguru 2023-12-21 | 1 Kommentare | Auf WhatsApp teilen
  • Auf einer RTX 4090 (24G) ist die Ausführung von Falcon(ReLU)-40B-FP16 11-mal schneller als mit llama.cpp
  • Eine CPU/GPU-Hybrid-LLM-Inferenz-Engine, die die Activation Locality des Geräts nutzt
    • Unterscheidet zwischen einigen Hot-Neuronen, die konsistent aktiviert werden, und der Mehrzahl der Cold-Neuronen, die sich je nach Eingabe ändern
    • Hot-Neuronen werden vorab in die GPU geladen und schnell aktiviert, Cold-Neuronen werden auf der CPU berechnet, wodurch der GPU-Speicherbedarf und die Datenübertragung zwischen CPU und GPU deutlich reduziert werden
  • Integriert einen adaptiven Prädiktor und einen neuronensensitiven Sparse-Operator, um die Effizienz von Neuronenaktivierung und Berechnungssparsität zu optimieren
  • Erreicht auf einer einzelnen NVIDIA-RTX-4090-GPU über verschiedene LLMs hinweg (einschließlich OPT-175B) eine durchschnittliche Token-Generierungsrate von 13,20 Token/s und maximal 29,08 Token/s
    • Das liegt nur 18 % unter dem Wert, den eine High-End-Server-GPU vom Typ A100 erreicht
    • Bei gleichbleibender Modellgenauigkeit übertrifft die Leistung llama.cpp um bis zu das 11,69-Fache deutlich

1 Kommentare

 
cosine20 2023-12-28

Eine 4090 ist zwar eine Consumer-GPU, klar, haha …