LLaMA: INT8-Edition

xguru · 2023-03-10T11:02:01+09:00

Eine Fork-Version, mit der sich Metas LLaMA-13B mit nur 24 GiB RAM ausführen lässt Das heißt, der Betrieb ist bereits mit nur einer RTX4090/3090 möglich Theoretisch lässt sich LLaMA-65B mit einer einzigen 80GB-A100 betreiben Änderungen Entfernung der Struktur für parallele Verarbeitung Quantisierung der Weights auf der Host-Maschine Schrittweises Laden der Weights, um Speicherprobleme zu vermeiden Nutzung von bitsandbytes und tqdm Einstellung für Wiederholungsstrafe (Standardwert 1.15) Auf einer Ubuntu-Maschine mit RTX4090 + 64GB dauert das Laden und Quantisieren des Modells etwa 25 Sekunden

(github.com/tloen)

8 Punkte von xguru 2023-03-10 | Noch keine Kommentare. | Auf WhatsApp teilen

Eine Fork-Version, mit der sich Metas LLaMA-13B mit nur 24 GiB RAM ausführen lässt
- Das heißt, der Betrieb ist bereits mit nur einer RTX4090/3090 möglich
Theoretisch lässt sich LLaMA-65B mit einer einzigen 80GB-A100 betreiben
Änderungen
- Entfernung der Struktur für parallele Verarbeitung
- Quantisierung der Weights auf der Host-Maschine
- Schrittweises Laden der Weights, um Speicherprobleme zu vermeiden
- Nutzung von bitsandbytes und tqdm
- Einstellung für Wiederholungsstrafe (Standardwert 1.15)
Auf einer Ubuntu-Maschine mit RTX4090 + 64GB dauert das Laden und Quantisieren des Modells etwa 25 Sekunden

LLaMA: INT8-Edition

Verwandte Beiträge

Noch keine Kommentare.