FlexGen – LLMs wie ChatGPT auf einer einzelnen GPU betreiben
(github.com/FMInference)- Hochleistungs-Generierungs-Engine zum Betrieb von LLMs in eingeschränkten GPU-Umgebungen wie 16GB T4 oder 24GB RTX3090
- Dank extrem schnellem Offloading von bis zu etwa dem 100-Fachen können 175B-Modelle auf einer einzelnen GPU betrieben werden
- Maximale Komprimierung von Parametern und Attention-Cache (bis auf 4 Bit mit nahezu keinem Genauigkeitsverlust)
- Durch eine verteilte parallele Runtime bei zusätzlichem GPU-Einsatz einfach skalierbar
Noch keine Kommentare.