6 Punkte von xguru 2024-05-02 | 1 Kommentare | Auf WhatsApp teilen
  • Das von Gradient entwickelte Modell erweitert die Kontextlänge von Llama-3 8B von 8K auf über 1.040K.
  • Es zeigt, dass ein State-of-the-Art-LLM durch korrektes Tuning von RoPE theta lernen kann, mit minimalem Training in langen Kontexten zu funktionieren.
  • Diese Stufe wurde mit 830 Millionen Tokens trainiert; über alle Phasen hinweg wurden insgesamt nur 1,4B Tokens genutzt, was lediglich 0,1% der Original-Pretraining-Daten von Llama3 entspricht.
  • Hinweis: Für 256K Kontext sind mindestens 64 GB Speicher erforderlich, für mehr als 1M Kontext mindestens 100 GB.

1 Kommentare

 
livekth 2024-05-02

Es gab offenbar einen Kommentar, wonach die Leistung durch das vergrößerte Kontextfenster im Vergleich zum ursprünglichen LLaMa 3 deutlich schlechter ist, sodass es praktisch unbrauchbar wirkt.

https://twitter.com/ArkaPal999/status/1785611161540378707