XGen-7B – 7B-LLM, trainiert auf 1,5T Token mit bis zu 8K Sequenzlänge

xguru · 2023-07-01T10:02:01+09:00

Mit der weiten Verbreitung von LLMs wird es immer wichtiger, sie auf lange Sequenzen anzuwenden: Dokumentenzusammenfassung, Code-Erstellung, Vorhersage von Proteinsequenzen usw. Die meisten Open-Source-LLMs (LLaMA, MPT, Falcon) wurden jedoch nur mit einer maximalen Sequenzlänge von 2K Token trainiert. XGen-7B wurde auf 1,5T Token mit einer maximalen Sequenzlänge von bis zu 8K trainiert. In standardmäßigen NLP-Benchmarks erreicht es im Vergleich zu MPT, Falcon, LLaMA, Redpajama und OpenLLaMA derselben Modellgröße eine gleichwertige oder bessere Leistung. Sowohl bei Textaufgaben (MMLU, QA) als auch bei Code-Aufgaben (HumanEval) erzielt es hervorragende Ergebnisse. Auf TPU-v4 betragen die Trainingskosten für 1T Token etwa 150.000 US-Dollar.

(blog.salesforceairesearch.com)

4 Punkte von xguru 2023-07-01 | Noch keine Kommentare. | Auf WhatsApp teilen

Mit der weiten Verbreitung von LLMs wird es immer wichtiger, sie auf lange Sequenzen anzuwenden: Dokumentenzusammenfassung, Code-Erstellung, Vorhersage von Proteinsequenzen usw.
Die meisten Open-Source-LLMs (LLaMA, MPT, Falcon) wurden jedoch nur mit einer maximalen Sequenzlänge von 2K Token trainiert.
XGen-7B wurde auf 1,5T Token mit einer maximalen Sequenzlänge von bis zu 8K trainiert.
In standardmäßigen NLP-Benchmarks erreicht es im Vergleich zu MPT, Falcon, LLaMA, Redpajama und OpenLLaMA derselben Modellgröße eine gleichwertige oder bessere Leistung.
Sowohl bei Textaufgaben (MMLU, QA) als auch bei Code-Aufgaben (HumanEval) erzielt es hervorragende Ergebnisse.
Auf TPU-v4 betragen die Trainingskosten für 1T Token etwa 150.000 US-Dollar.

XGen-7B – 7B-LLM, trainiert auf 1,5T Token mit bis zu 8K Sequenzlänge

Verwandte Beiträge

Noch keine Kommentare.