8 Punkte von xguru 2023-05-16 | 2 Kommentare | Auf WhatsApp teilen
  • Open Source, das die gesamte Pipeline von der Datensatzerstellung über Tokenisierung, Prompt-Tuning, LoRA und RLHF bis zum Ende abdeckt
  • Das vortrainierte Modell Open-LLama-V2-pretrain wurde ebenfalls auf Hugging Face veröffentlicht
  • Laut der FastChat-Bewertungsmethode erreicht es im Vergleich zu GPT-3.5 etwa 89 % der Leistung (bei Fragen auf Chinesisch)
  • Die Trainingsgeschwindigkeit liegt bei 3620 Token/s und ist damit etwas schneller als die 3370 des originalen LLama (7B-Modell)
  • Bei einem Training mit 500B Token werden 38300 GPU-Stunden benötigt
    • Bei Google Cloud kosten 8 A100-80G-Spot-GPUs pro Stunde 12,6 US-Dollar
    • Die Gesamtkosten liegen bei 60300 US-Dollar

2 Kommentare

 
zer0ne 2023-05-16

Ich bin gespannt, wie lange das Training wohl auf einer normalen Consumer-GPU wie der 4090 dauern würde.

 
xguru 2023-05-16

Den Namen hatte ich schon mal gehört …? Also habe ich nachgeschaut: OpenLLaMA - das offene Replikat von LLaMA
Der Unterschied im Namen ist nur ein Bindestrich, inhaltlich ist es aber ein völlig anderes Projekt.