Vollständige CUDA-GPU-Beschleunigung zu llama.cpp hinzugefügt

xguru · 2023-06-14T10:46:02+09:00

PR, die GPU-Beschleunigung für alle verbleibenden ggml-Tensoren hinzufügt Auf einer RTX 3090 wird die Prompt-Verarbeitung um das 2-Fache beschleunigt, die Token-Generierung um das 1,3- bis 1,8-Fache Auf einem 4090+i9 erzeugt das 7B-q4-Modell 109 Token pro Sekunde

(github.com/ggerganov)

8 Punkte von xguru 2023-06-14 | Noch keine Kommentare. | Auf WhatsApp teilen

PR, die GPU-Beschleunigung für alle verbleibenden ggml-Tensoren hinzufügt
Auf einer RTX 3090 wird die Prompt-Verarbeitung um das 2-Fache beschleunigt, die Token-Generierung um das 1,3- bis 1,8-Fache
Auf einem 4090+i9 erzeugt das 7B-q4-Modell 109 Token pro Sekunde

Vollständige CUDA-GPU-Beschleunigung zu llama.cpp hinzugefügt

Verwandte Beiträge

Noch keine Kommentare.