10 Punkte von ninebow 2023-10-03 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Meta hat das Modell LLaMA 2 Long in dem Paper „Effective Long-Context Scaling of Foundation Models“ vorgestellt
  • Die Länge des Kontextfensters wird bis zu 32K (32.768) Token unterstützt
  • Die 70B-Version übertrifft bei einer Sammlung von Long-Context-Aufgaben bereits die Gesamtleistung von gpt-3.5-turbo-16k
  • Bei Beibehaltung der bestehenden Modellarchitektur werden für die Positionskodierung RoPE (Rotary Positional Embedding) eingesetzt, um mit weniger Information bessere Antworten zu erzeugen

Noch keine Kommentare.

Noch keine Kommentare.