FlexGen – LLMs wie ChatGPT auf einer einzelnen GPU betreiben

xguru · 2023-02-22T10:16:02+09:00

Hochleistungs-Generierungs-Engine zum Betrieb von LLMs in eingeschränkten GPU-Umgebungen wie 16GB T4 oder 24GB RTX3090 Dank extrem schnellem Offloading von bis zu etwa dem 100-Fachen können 175B-Modelle auf einer einzelnen GPU betrieben werden Maximale Komprimierung von Parametern und Attention-Cache (bis auf 4 Bit mit nahezu keinem Genauigkeitsverlust) Durch eine verteilte parallele Runtime bei zusätzlichem GPU-Einsatz einfach skalierbar

(github.com/FMInference)

14 Punkte von xguru 2023-02-22 | Noch keine Kommentare. | Auf WhatsApp teilen

Hochleistungs-Generierungs-Engine zum Betrieb von LLMs in eingeschränkten GPU-Umgebungen wie 16GB T4 oder 24GB RTX3090
Dank extrem schnellem Offloading von bis zu etwa dem 100-Fachen können 175B-Modelle auf einer einzelnen GPU betrieben werden
Maximale Komprimierung von Parametern und Attention-Cache (bis auf 4 Bit mit nahezu keinem Genauigkeitsverlust)
Durch eine verteilte parallele Runtime bei zusätzlichem GPU-Einsatz einfach skalierbar

FlexGen – LLMs wie ChatGPT auf einer einzelnen GPU betreiben

Verwandte Beiträge

Noch keine Kommentare.