16 Punkte von xguru 2023-03-13 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ziel ist es, das LLaMA-Modell auf einem MacBook mit 4-Bit-Quantisierung auszuführen
  • Implementierung in reinem C/C++ ohne Abhängigkeiten
  • Optimiert für Arm Neon/Accelerate Framework (Apple Silicon)
  • AVX2-Unterstützung für x86
  • Gemischte F16/F32-Präzision
  • Unterstützung für 4-Bit-Quantisierung
  • Läuft auf der CPU
  • Derzeit werden nur Mac/Linux unterstützt. Unterstützung für Windows ist geplant

Noch keine Kommentare.

Noch keine Kommentare.