Meta veröffentlicht LLaMA 2 Long mit Unterstützung für ein 32k-Token-Kontextfenster
(venturebeat.com)- Meta hat das Modell LLaMA 2 Long in dem Paper „Effective Long-Context Scaling of Foundation Models“ vorgestellt
- Link zum Paper: https://arxiv.org/pdf/2309.16039.pdf
- Die Länge des Kontextfensters wird bis zu 32K (32.768) Token unterstützt
- Die 70B-Version übertrifft bei einer Sammlung von Long-Context-Aufgaben bereits die Gesamtleistung von
gpt-3.5-turbo-16k - Bei Beibehaltung der bestehenden Modellarchitektur werden für die Positionskodierung RoPE (Rotary Positional Embedding) eingesetzt, um mit weniger Information bessere Antworten zu erzeugen
- Erklärung zu RoPE: https://blog.eleuther.ai/rotary-embeddings/
Noch keine Kommentare.