- Das von Gradient entwickelte Modell erweitert die Kontextlänge von Llama-3 8B von 8K auf über 1.040K.
- Es zeigt, dass ein State-of-the-Art-LLM durch korrektes Tuning von RoPE theta lernen kann, mit minimalem Training in langen Kontexten zu funktionieren.
- Diese Stufe wurde mit 830 Millionen Tokens trainiert; über alle Phasen hinweg wurden insgesamt nur 1,4B Tokens genutzt, was lediglich 0,1% der Original-Pretraining-Daten von Llama3 entspricht.
- Hinweis: Für 256K Kontext sind mindestens 64 GB Speicher erforderlich, für mehr als 1M Kontext mindestens 100 GB.
1 Kommentare
Es gab offenbar einen Kommentar, wonach die Leistung durch das vergrößerte Kontextfenster im Vergleich zum ursprünglichen LLaMa 3 deutlich schlechter ist, sodass es praktisch unbrauchbar wirkt.
https://twitter.com/ArkaPal999/status/1785611161540378707