Open-LLaMa – Vollständige Trainings-Pipeline zum Erstellen von LLMs

xguru · 2023-05-16T10:02:01+09:00

Open Source, das die gesamte Pipeline von der Datensatzerstellung über Tokenisierung, Prompt-Tuning, LoRA und RLHF bis zum Ende abdeckt Das vortrainierte Modell Open-LLama-V2-pretrain wurde ebenfalls auf Hugging Face veröffentlicht Laut der FastChat-Bewertungsmethode erreicht es im Vergleich zu GPT-3.5 etwa 89 % der Leistung (bei Fragen auf Chinesisch) Die Trainingsgeschwindigkeit liegt bei 3620 Token/s und ist damit etwas schneller als die 3370 des originalen LLama (7B-Modell) Bei einem Training mit 500B Token werden 38300 GPU-Stunden benötigt Bei Google Cloud kosten 8 A100-80G-Spot-GPUs pro Stunde 12,6 US-Dollar Die Gesamtkosten liegen bei 60300 US-Dollar

(github.com/s-JoL)

8 Punkte von xguru 2023-05-16 | 2 Kommentare | Auf WhatsApp teilen

Open Source, das die gesamte Pipeline von der Datensatzerstellung über Tokenisierung, Prompt-Tuning, LoRA und RLHF bis zum Ende abdeckt
Das vortrainierte Modell Open-LLama-V2-pretrain wurde ebenfalls auf Hugging Face veröffentlicht
Laut der FastChat-Bewertungsmethode erreicht es im Vergleich zu GPT-3.5 etwa 89 % der Leistung (bei Fragen auf Chinesisch)
Die Trainingsgeschwindigkeit liegt bei 3620 Token/s und ist damit etwas schneller als die 3370 des originalen LLama (7B-Modell)
Bei einem Training mit 500B Token werden 38300 GPU-Stunden benötigt
- Bei Google Cloud kosten 8 A100-80G-Spot-GPUs pro Stunde 12,6 US-Dollar
- Die Gesamtkosten liegen bei 60300 US-Dollar

2 Kommentare

zer0ne 2023-05-16

Ich bin gespannt, wie lange das Training wohl auf einer normalen Consumer-GPU wie der 4090 dauern würde.

xguru 2023-05-16

Den Namen hatte ich schon mal gehört …? Also habe ich nachgeschaut: OpenLLaMA - das offene Replikat von LLaMA
Der Unterschied im Namen ist nur ein Bindestrich, inhaltlich ist es aber ein völlig anderes Projekt.

Open-LLaMa – Vollständige Trainings-Pipeline zum Erstellen von LLMs

Verwandte Beiträge

2 Kommentare