RedPajama veröffentlicht ein 7B-Modell, das im HELM-Benchmark besser abschneidet als andere offene 7B-LLM-Modelle
(together.xyz)Vorstellung von drei RedPajama-INCITE-7B-Modellen
- Es wurden drei 7B-Modelle veröffentlicht, darunter das RedPajama-INCITE-7B-Instruct-Modell, das laut HELM-Benchmark besser abschneidet als bisher veröffentlichte offene 7B-Modelle.
RedPajama-INCITE-7B-Instruct-Modell
- Eine Instruct-getunte Version des bestehenden Modells
- Trainiert mit P3 (BigScience) und Natural Instruction (AI2)
- Als bestbewertetes offenes Modell im HELM-Benchmark ideal für vielfältige Aufgaben
RedPajama-INCITE-7B-Chat-Modell
- Ausschließlich mit Open-Source-Daten wie Dolly2 und OASST trainiert ➡️ kommerzielle Nutzung möglich
- (+ Nicht nur das Chat-Modell, sondern die gesamte RedPajama-INCITE-Modellfamilie kann kommerziell genutzt werden)
- Einschließlich Trainingsskripten für Fine-Tuning veröffentlicht :arrow_forward: direkt in OpenChatKit nutzbar
- Unterstützt RedPajama.cpp (ein Fork von LLaMA.cpp) – kann auf der CPU ausgeführt werden
- Zusammenarbeit mit Projekten wie MLC LLM ➡️ soll künftig auf verschiedener Hardware lauffähig werden
RedPajama-INCITE-7B-Base-Modell
- Verwendet dieselbe Architektur wie das Pythia-Modell von EleutherAI und wurde mit dem Datensatz RedPajama-Data-1T trainiert
- Download verfügbar bei 🤗HuggingFace unter togethercomputer/RedPajama-INCITE-7B-Base
- Im HELM-Benchmark etwa 4 Punkte unter LLaMA-7B und rund 1,3 Punkte unter Falcon-7B/MPT-7B
- Schwächere Leistung nur bei Aufgaben, die mit
logprobden Wahrscheinlichkeitsunterschied zwischen richtigen und falschen Antworten berechnen - Bei Aufgaben, in denen Antworten direkt generiert und qualitativ bewertet werden, zeigt es eine ähnliche Leistung
- Auch die LM-Harness-Ergebnisse fallen ähnlich niedriger aus, da dort ebenfalls
logprobverwendet wird
- Schwächere Leistung nur bei Aufgaben, die mit
Zukünftige Pläne (RedPajama2)
- Ein neuer Datensatz RedPajama2 mit 2–3T Token wird mit folgenden Plänen entwickelt:
- Die Balance der Datenmischung soll mit Techniken wie DoReMi angepasst werden
- Nutzung von Daten wie Pile v1 von Eleuther.ai und Pile v2 von CarperAI zur Ergänzung von Vielfalt und Größe
- Verarbeitung größerer Mengen an CommonCrawl-Daten
- Untersuchung verschiedener Strategien zur Deduplizierung von Daten jenseits des Ansatzes aus dem LLaMA-Paper
- Hinzufügen von mehr als 150B Code-Token zur Verbesserung der Qualität bei Coding- und Reasoning-Aufgaben
3 Kommentare
Ach .. im Titel war ein Tippfehler T_T
@xguru-san, könnten Sie vielleicht HEML im Titel in HELM ändern T_T
Ich habe es korrigiert!
Weiterlesen