Vollständige CUDA-GPU-Beschleunigung zu llama.cpp hinzugefügt
(github.com/ggerganov)- PR, die GPU-Beschleunigung für alle verbleibenden ggml-Tensoren hinzufügt
- Auf einer RTX 3090 wird die Prompt-Verarbeitung um das 2-Fache beschleunigt, die Token-Generierung um das 1,3- bis 1,8-Fache
- Auf einem 4090+i9 erzeugt das 7B-q4-Modell 109 Token pro Sekunde
Noch keine Kommentare.