16 Punkte von xguru 2023-03-13 | 1 Kommentare | Auf WhatsApp teilen
  • Ziel ist es, das LLaMA-Modell auf einem MacBook mit 4-Bit-Quantisierung auszuführen
  • Implementierung in reinem C/C++ ohne Abhängigkeiten
  • Optimiert für Arm Neon/Accelerate Framework (Apple Silicon)
  • AVX2-Unterstützung für x86
  • Gemischte F16/F32-Präzision
  • Unterstützung für 4-Bit-Quantisierung
  • Läuft auf der CPU
  • Derzeit werden nur Mac/Linux unterstützt. Unterstützung für Windows ist geplant

1 Kommentare

 
laeyoung 2023-03-14

Ich habe das 7B-Modell ausprobiert, und es läuft besser als erwartet.