- In vier Größen veröffentlicht: 7B, 13B, 33B und 65B
- Deutlich kleiner dimensioniert, aber durch verstärktes Datentraining und Fine-Tuning ein effizientes Modell, das mit deutlich größeren Modellen vergleichbar ist
- 33B/65B wurden mit 1,4 Billionen Tokens trainiert (7B mit 1 Billion)
- „Das 13B-Modell ist besser als GPT-3 mit 175B, und 65B kann mit dem deutlich größeren Chinchilla70B und PaLM-540B konkurrieren“
- Nur für nicht-kommerzielle Zwecke wie KI-Forschung nutzbar (Antrag und Genehmigung erforderlich)
Noch keine Kommentare.