LLaMA – Metas veröffentlichtes LLM mit 65B Parametern

xguru · 2023-02-28T10:49:01+09:00

In vier Größen veröffentlicht: 7B, 13B, 33B und 65B Deutlich kleiner dimensioniert, aber durch verstärktes Datentraining und Fine-Tuning ein effizientes Modell, das mit deutlich größeren Modellen vergleichbar ist 33B/65B wurden mit 1,4 Billionen Tokens trainiert (7B mit 1 Billion) „Das 13B-Modell ist besser als GPT-3 mit 175B, und 65B kann mit dem deutlich größeren Chinchilla70B und PaLM-540B konkurrieren“ Nur für nicht-kommerzielle Zwecke wie KI-Forschung nutzbar (Antrag und Genehmigung erforderlich)

(ai.facebook.com)

7 Punkte von xguru 2023-02-28 | Noch keine Kommentare. | Auf WhatsApp teilen

In vier Größen veröffentlicht: 7B, 13B, 33B und 65B
Deutlich kleiner dimensioniert, aber durch verstärktes Datentraining und Fine-Tuning ein effizientes Modell, das mit deutlich größeren Modellen vergleichbar ist
33B/65B wurden mit 1,4 Billionen Tokens trainiert (7B mit 1 Billion)
„Das 13B-Modell ist besser als GPT-3 mit 175B, und 65B kann mit dem deutlich größeren Chinchilla70B und PaLM-540B konkurrieren“
Nur für nicht-kommerzielle Zwecke wie KI-Forschung nutzbar (Antrag und Genehmigung erforderlich)

LLaMA – Metas veröffentlichtes LLM mit 65B Parametern

Verwandte Beiträge

Noch keine Kommentare.