10- bis 100-fach schnellere Ladezeiten für Modellgewichte in Llama.cpp

xguru · 2023-04-03T10:03:01+09:00

Durch eine Änderung des Dateiformats ist mmap() nun ohne read() möglich, wodurch das Laden der Gewichte 10- bis 100-mal schneller wird Unterstützt werden jetzt sowohl die Single-File-Variante 7B als auch die Multi-File-Variante 13B, und der Ladecode ist deutlich einfacher geworden Außerdem sind durch diese Änderung die Tensoren an 32-Byte-Grenzen ausgerichtet, was auf bestimmten Prozessoren zusätzliche Leistungsverbesserungen ermöglichen kann

(github.com/ggerganov)

13 Punkte von xguru 2023-04-03 | 1 Kommentare | Auf WhatsApp teilen

Durch eine Änderung des Dateiformats ist mmap() nun ohne read() möglich, wodurch das Laden der Gewichte 10- bis 100-mal schneller wird
Unterstützt werden jetzt sowohl die Single-File-Variante 7B als auch die Multi-File-Variante 13B, und der Ladecode ist deutlich einfacher geworden
Außerdem sind durch diese Änderung die Tensoren an 32-Byte-Grenzen ausgerichtet, was auf bestimmten Prozessoren zusätzliche Leistungsverbesserungen ermöglichen kann

1 Kommentare

xguru 2023-04-03

LLaMA – Das von Meta veröffentlichte LLM mit 65B Parametern
llama.cpp – Inferenz des LLaMA-Modells von Facebook in reinem C/C++

10- bis 100-fach schnellere Ladezeiten für Modellgewichte in Llama.cpp

Verwandte Beiträge

1 Kommentare