8 Punkte von xguru 2023-06-14 | Noch keine Kommentare. | Auf WhatsApp teilen
  • PR, die GPU-Beschleunigung für alle verbleibenden ggml-Tensoren hinzufügt
  • Auf einer RTX 3090 wird die Prompt-Verarbeitung um das 2-Fache beschleunigt, die Token-Generierung um das 1,3- bis 1,8-Fache
  • Auf einem 4090+i9 erzeugt das 7B-q4-Modell 109 Token pro Sekunde

Noch keine Kommentare.

Noch keine Kommentare.