llama.cpp - Inferenz des LLaMA-Modells von Facebook in reinem C/C++
(github.com/ggerganov)- Ziel ist es, das LLaMA-Modell auf einem MacBook mit 4-Bit-Quantisierung auszuführen
- Implementierung in reinem C/C++ ohne Abhängigkeiten
- Optimiert für Arm Neon/Accelerate Framework (Apple Silicon)
- AVX2-Unterstützung für x86
- Gemischte F16/F32-Präzision
- Unterstützung für 4-Bit-Quantisierung
- Läuft auf der CPU
- Derzeit werden nur Mac/Linux unterstützt. Unterstützung für Windows ist geplant
Noch keine Kommentare.