- Open Source, das die gesamte Pipeline von der Datensatzerstellung über Tokenisierung, Prompt-Tuning, LoRA und RLHF bis zum Ende abdeckt
- Das vortrainierte Modell Open-LLama-V2-pretrain wurde ebenfalls auf Hugging Face veröffentlicht
- Laut der FastChat-Bewertungsmethode erreicht es im Vergleich zu GPT-3.5 etwa 89 % der Leistung (bei Fragen auf Chinesisch)
- Die Trainingsgeschwindigkeit liegt bei 3620 Token/s und ist damit etwas schneller als die 3370 des originalen LLama (7B-Modell)
- Bei einem Training mit 500B Token werden 38300 GPU-Stunden benötigt
- Bei Google Cloud kosten 8 A100-80G-Spot-GPUs pro Stunde 12,6 US-Dollar
- Die Gesamtkosten liegen bei 60300 US-Dollar
2 Kommentare
Ich bin gespannt, wie lange das Training wohl auf einer normalen Consumer-GPU wie der 4090 dauern würde.
Den Namen hatte ich schon mal gehört …? Also habe ich nachgeschaut: OpenLLaMA - das offene Replikat von LLaMA
Der Unterschied im Namen ist nur ein Bindestrich, inhaltlich ist es aber ein völlig anderes Projekt.