8 Punkte von xguru 2023-03-10 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Eine Fork-Version, mit der sich Metas LLaMA-13B mit nur 24 GiB RAM ausführen lässt
    • Das heißt, der Betrieb ist bereits mit nur einer RTX4090/3090 möglich
  • Theoretisch lässt sich LLaMA-65B mit einer einzigen 80GB-A100 betreiben
  • Änderungen
    • Entfernung der Struktur für parallele Verarbeitung
    • Quantisierung der Weights auf der Host-Maschine
    • Schrittweises Laden der Weights, um Speicherprobleme zu vermeiden
    • Nutzung von bitsandbytes und tqdm
    • Einstellung für Wiederholungsstrafe (Standardwert 1.15)
  • Auf einer Ubuntu-Maschine mit RTX4090 + 64GB dauert das Laden und Quantisieren des Modells etwa 25 Sekunden

Noch keine Kommentare.

Noch keine Kommentare.