4 Punkte von xguru 2023-07-01 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Mit der weiten Verbreitung von LLMs wird es immer wichtiger, sie auf lange Sequenzen anzuwenden: Dokumentenzusammenfassung, Code-Erstellung, Vorhersage von Proteinsequenzen usw.
  • Die meisten Open-Source-LLMs (LLaMA, MPT, Falcon) wurden jedoch nur mit einer maximalen Sequenzlänge von 2K Token trainiert.
  • XGen-7B wurde auf 1,5T Token mit einer maximalen Sequenzlänge von bis zu 8K trainiert.
  • In standardmäßigen NLP-Benchmarks erreicht es im Vergleich zu MPT, Falcon, LLaMA, Redpajama und OpenLLaMA derselben Modellgröße eine gleichwertige oder bessere Leistung.
  • Sowohl bei Textaufgaben (MMLU, QA) als auch bei Code-Aufgaben (HumanEval) erzielt es hervorragende Ergebnisse.
  • Auf TPU-v4 betragen die Trainingskosten für 1T Token etwa 150.000 US-Dollar.

Noch keine Kommentare.

Noch keine Kommentare.