llama.cpp - Inferenz des LLaMA-Modells von Facebook in reinem C/C++

xguru · 2023-03-13T11:26:01+09:00

Ziel ist es, das LLaMA-Modell auf einem MacBook mit 4-Bit-Quantisierung auszuführen Implementierung in reinem C/C++ ohne Abhängigkeiten Optimiert für Arm Neon/Accelerate Framework (Apple Silicon) AVX2-Unterstützung für x86 Gemischte F16/F32-Präzision Unterstützung für 4-Bit-Quantisierung Läuft auf der CPU Derzeit werden nur Mac/Linux unterstützt. Unterstützung für Windows ist geplant

(github.com/ggerganov)

16 Punkte von xguru 2023-03-13 | 1 Kommentare | Auf WhatsApp teilen

Ziel ist es, das LLaMA-Modell auf einem MacBook mit 4-Bit-Quantisierung auszuführen
Implementierung in reinem C/C++ ohne Abhängigkeiten
Optimiert für Arm Neon/Accelerate Framework (Apple Silicon)
AVX2-Unterstützung für x86
Gemischte F16/F32-Präzision
Unterstützung für 4-Bit-Quantisierung
Läuft auf der CPU
Derzeit werden nur Mac/Linux unterstützt. Unterstützung für Windows ist geplant

1 Kommentare

laeyoung 2023-03-14

Ich habe das 7B-Modell ausprobiert, und es läuft besser als erwartet.

llama.cpp - Inferenz des LLaMA-Modells von Facebook in reinem C/C++

Verwandte Beiträge

1 Kommentare