- Mit der weiten Verbreitung von LLMs wird es immer wichtiger, sie auf lange Sequenzen anzuwenden: Dokumentenzusammenfassung, Code-Erstellung, Vorhersage von Proteinsequenzen usw.
- Die meisten Open-Source-LLMs (LLaMA, MPT, Falcon) wurden jedoch nur mit einer maximalen Sequenzlänge von 2K Token trainiert.
- XGen-7B wurde auf 1,5T Token mit einer maximalen Sequenzlänge von bis zu 8K trainiert.
- In standardmäßigen NLP-Benchmarks erreicht es im Vergleich zu MPT, Falcon, LLaMA, Redpajama und OpenLLaMA derselben Modellgröße eine gleichwertige oder bessere Leistung.
- Sowohl bei Textaufgaben (MMLU, QA) als auch bei Code-Aufgaben (HumanEval) erzielt es hervorragende Ergebnisse.
- Auf TPU-v4 betragen die Trainingskosten für 1T Token etwa 150.000 US-Dollar.
Noch keine Kommentare.