RedPajama veröffentlicht ein 7B-Modell, das im HELM-Benchmark besser abschneidet als andere offene 7B-LLM-Modelle

(together.xyz)

15 Punkte von ninebow 2023-06-07 | 3 Kommentare | Auf WhatsApp teilen

Vorstellung von drei RedPajama-INCITE-7B-Modellen

Es wurden drei 7B-Modelle veröffentlicht, darunter das RedPajama-INCITE-7B-Instruct-Modell, das laut HELM-Benchmark besser abschneidet als bisher veröffentlichte offene 7B-Modelle.

Eine Instruct-getunte Version des bestehenden Modells
Trainiert mit P3 (BigScience) und Natural Instruction (AI2)
Als bestbewertetes offenes Modell im HELM-Benchmark ideal für vielfältige Aufgaben

Ausschließlich mit Open-Source-Daten wie Dolly2 und OASST trainiert ➡️ kommerzielle Nutzung möglich
- (+ Nicht nur das Chat-Modell, sondern die gesamte RedPajama-INCITE-Modellfamilie kann kommerziell genutzt werden)
Einschließlich Trainingsskripten für Fine-Tuning veröffentlicht :arrow_forward: direkt in OpenChatKit nutzbar
Unterstützt RedPajama.cpp (ein Fork von LLaMA.cpp) – kann auf der CPU ausgeführt werden
Zusammenarbeit mit Projekten wie MLC LLM ➡️ soll künftig auf verschiedener Hardware lauffähig werden

Verwendet dieselbe Architektur wie das Pythia-Modell von EleutherAI und wurde mit dem Datensatz RedPajama-Data-1T trainiert
Download verfügbar bei 🤗HuggingFace unter togethercomputer/RedPajama-INCITE-7B-Base
Im HELM-Benchmark etwa 4 Punkte unter LLaMA-7B und rund 1,3 Punkte unter Falcon-7B/MPT-7B
- Schwächere Leistung nur bei Aufgaben, die mit logprob den Wahrscheinlichkeitsunterschied zwischen richtigen und falschen Antworten berechnen
- Bei Aufgaben, in denen Antworten direkt generiert und qualitativ bewertet werden, zeigt es eine ähnliche Leistung
- Auch die LM-Harness-Ergebnisse fallen ähnlich niedriger aus, da dort ebenfalls logprob verwendet wird

3 Kommentare

ninebow 2023-06-07

Ach .. im Titel war ein Tippfehler T_T
@xguru-san, könnten Sie vielleicht HEML im Titel in HELM ändern T_T

moderator 2023-06-08

Ich habe es korrigiert!

ninebow 2023-06-07