SlowLlama - Feinabstimmung von Llama2-70b und CodeLlama auf M1/M2 ohne Quantisierung
(github.com/okuvshynov)- Feinabstimmung von Modellen wie Llama2-70B auf Apple M1/M2 und Consumer-nVidia-GPUs
- Anstatt Quantisierung zu verwenden, werden Teile des Modells sowohl im Forward- als auch im Backward-Pass auf SSD oder den Hauptspeicher ausgelagert
- Die aktuelle Version beschränkt Aktualisierungen mithilfe von LoRA auf einen kleineren Parametersatz
- Die erste Version unterstützte auch vollständige Feinabstimmung, das wurde inzwischen aber entfernt
Noch keine Kommentare.