15 Punkte von ninebow 2023-06-07 | 3 Kommentare | Auf WhatsApp teilen

Vorstellung von drei RedPajama-INCITE-7B-Modellen

  • Es wurden drei 7B-Modelle veröffentlicht, darunter das RedPajama-INCITE-7B-Instruct-Modell, das laut HELM-Benchmark besser abschneidet als bisher veröffentlichte offene 7B-Modelle.

RedPajama-INCITE-7B-Instruct-Modell

  • Eine Instruct-getunte Version des bestehenden Modells
  • Trainiert mit P3 (BigScience) und Natural Instruction (AI2)
  • Als bestbewertetes offenes Modell im HELM-Benchmark ideal für vielfältige Aufgaben

RedPajama-INCITE-7B-Chat-Modell

  • Ausschließlich mit Open-Source-Daten wie Dolly2 und OASST trainiert ➡️ kommerzielle Nutzung möglich
    • (+ Nicht nur das Chat-Modell, sondern die gesamte RedPajama-INCITE-Modellfamilie kann kommerziell genutzt werden)
  • Einschließlich Trainingsskripten für Fine-Tuning veröffentlicht :arrow_forward: direkt in OpenChatKit nutzbar
  • Unterstützt RedPajama.cpp (ein Fork von LLaMA.cpp) – kann auf der CPU ausgeführt werden
  • Zusammenarbeit mit Projekten wie MLC LLM ➡️ soll künftig auf verschiedener Hardware lauffähig werden

RedPajama-INCITE-7B-Base-Modell

  • Verwendet dieselbe Architektur wie das Pythia-Modell von EleutherAI und wurde mit dem Datensatz RedPajama-Data-1T trainiert
  • Download verfügbar bei 🤗HuggingFace unter togethercomputer/RedPajama-INCITE-7B-Base
  • Im HELM-Benchmark etwa 4 Punkte unter LLaMA-7B und rund 1,3 Punkte unter Falcon-7B/MPT-7B
    • Schwächere Leistung nur bei Aufgaben, die mit logprob den Wahrscheinlichkeitsunterschied zwischen richtigen und falschen Antworten berechnen
    • Bei Aufgaben, in denen Antworten direkt generiert und qualitativ bewertet werden, zeigt es eine ähnliche Leistung
    • Auch die LM-Harness-Ergebnisse fallen ähnlich niedriger aus, da dort ebenfalls logprob verwendet wird

Zukünftige Pläne (RedPajama2)

  • Ein neuer Datensatz RedPajama2 mit 2–3T Token wird mit folgenden Plänen entwickelt:
    • Die Balance der Datenmischung soll mit Techniken wie DoReMi angepasst werden
    • Nutzung von Daten wie Pile v1 von Eleuther.ai und Pile v2 von CarperAI zur Ergänzung von Vielfalt und Größe
    • Verarbeitung größerer Mengen an CommonCrawl-Daten
    • Untersuchung verschiedener Strategien zur Deduplizierung von Daten jenseits des Ansatzes aus dem LLaMA-Paper
    • Hinzufügen von mehr als 150B Code-Token zur Verbesserung der Qualität bei Coding- und Reasoning-Aufgaben