10- bis 100-fach schnellere Ladezeiten für Modellgewichte in Llama.cpp
(github.com/ggerganov)- Durch eine Änderung des Dateiformats ist
mmap()nun ohneread()möglich, wodurch das Laden der Gewichte 10- bis 100-mal schneller wird - Unterstützt werden jetzt sowohl die Single-File-Variante 7B als auch die Multi-File-Variante 13B, und der Ladecode ist deutlich einfacher geworden
- Außerdem sind durch diese Änderung die Tensoren an 32-Byte-Grenzen ausgerichtet, was auf bestimmten Prozessoren zusätzliche Leistungsverbesserungen ermöglichen kann
1 Kommentare
LLaMA – Das von Meta veröffentlichte LLM mit 65B Parametern
llama.cpp – Inferenz des LLaMA-Modells von Facebook in reinem C/C++