LLaMA-CPU - Fork zum Ausführen von LLaMA auf der CPU
(github.com/markasoftware)- Führt Metas LLaMA-Modell auf der CPU aus
- Die Einrichtung ist fast identisch
- Beim Test mit dem 7B-Modell werden zum Laden selbst bei 32 GiB RAM Swap/zram benötigt
- Bei der eigentlichen Inferenz werden tatsächlich nur etwa weniger als 20 GiB RAM verwendet
- Auf einem Ryzen 7900X kann das 7B-Modell mehrere Wörter pro Sekunde inferieren
Noch keine Kommentare.