- Eine Fork-Version, mit der sich Metas LLaMA-13B mit nur 24 GiB RAM ausführen lässt
- Das heißt, der Betrieb ist bereits mit nur einer RTX4090/3090 möglich
- Theoretisch lässt sich LLaMA-65B mit einer einzigen 80GB-A100 betreiben
- Änderungen
- Entfernung der Struktur für parallele Verarbeitung
- Quantisierung der Weights auf der Host-Maschine
- Schrittweises Laden der Weights, um Speicherprobleme zu vermeiden
- Nutzung von
bitsandbytes und tqdm
- Einstellung für Wiederholungsstrafe (Standardwert 1.15)
- Auf einer Ubuntu-Maschine mit RTX4090 + 64GB dauert das Laden und Quantisieren des Modells etwa 25 Sekunden
Noch keine Kommentare.