Llama3-gradient – Modell, das die Kontextlänge von LLAMA von 8K auf 1M erweitert

xguru · 2024-05-02T10:46:01+09:00

Das von Gradient entwickelte Modell erweitert die Kontextlänge von Llama-3 8B von 8K auf über 1.040K. Es zeigt, dass ein State-of-the-Art-LLM durch korrektes Tuning von RoPE theta lernen kann, mit minimalem Training in langen Kontexten zu funktionieren. Diese Stufe wurde mit 830 Millionen Tokens trainiert; über alle Phasen hinweg wurden insgesamt nur 1,4B Tokens genutzt, was lediglich 0,1% der Original-Pretraining-Daten von Llama3 entspricht. Hinweis: Für 256K Kontext sind mindestens 64 GB Speicher erforderlich, für mehr als 1M Kontext mindestens 100 GB.

(ollama.com)

6 Punkte von xguru 2024-05-02 | 1 Kommentare | Auf WhatsApp teilen

Das von Gradient entwickelte Modell erweitert die Kontextlänge von Llama-3 8B von 8K auf über 1.040K.
Es zeigt, dass ein State-of-the-Art-LLM durch korrektes Tuning von RoPE theta lernen kann, mit minimalem Training in langen Kontexten zu funktionieren.
Diese Stufe wurde mit 830 Millionen Tokens trainiert; über alle Phasen hinweg wurden insgesamt nur 1,4B Tokens genutzt, was lediglich 0,1% der Original-Pretraining-Daten von Llama3 entspricht.
Hinweis: Für 256K Kontext sind mindestens 64 GB Speicher erforderlich, für mehr als 1M Kontext mindestens 100 GB.

1 Kommentare

livekth 2024-05-02

Es gab offenbar einen Kommentar, wonach die Leistung durch das vergrößerte Kontextfenster im Vergleich zum ursprünglichen LLaMa 3 deutlich schlechter ist, sodass es praktisch unbrauchbar wirkt.

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient – Modell, das die Kontextlänge von LLAMA von 8K auf 1M erweitert

Verwandte Beiträge

1 Kommentare