14 Punkte von xguru 2023-02-22 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Hochleistungs-Generierungs-Engine zum Betrieb von LLMs in eingeschränkten GPU-Umgebungen wie 16GB T4 oder 24GB RTX3090
  • Dank extrem schnellem Offloading von bis zu etwa dem 100-Fachen können 175B-Modelle auf einer einzelnen GPU betrieben werden
  • Maximale Komprimierung von Parametern und Attention-Cache (bis auf 4 Bit mit nahezu keinem Genauigkeitsverlust)
  • Durch eine verteilte parallele Runtime bei zusätzlichem GPU-Einsatz einfach skalierbar

Noch keine Kommentare.

Noch keine Kommentare.