7 Punkte von xguru 2023-02-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • In vier Größen veröffentlicht: 7B, 13B, 33B und 65B
  • Deutlich kleiner dimensioniert, aber durch verstärktes Datentraining und Fine-Tuning ein effizientes Modell, das mit deutlich größeren Modellen vergleichbar ist
  • 33B/65B wurden mit 1,4 Billionen Tokens trainiert (7B mit 1 Billion)
  • „Das 13B-Modell ist besser als GPT-3 mit 175B, und 65B kann mit dem deutlich größeren Chinchilla70B und PaLM-540B konkurrieren“
  • Nur für nicht-kommerzielle Zwecke wie KI-Forschung nutzbar (Antrag und Genehmigung erforderlich)

Noch keine Kommentare.

Noch keine Kommentare.