RedPajama 3B- und 7B-Modelle vorgestellt

xguru · 2023-05-08T10:01:01+09:00

Ein Projekt zur Entwicklung eines vollständig offenen Sprachmodells Auf Basis des vor drei Wochen veröffentlichten Datensatzes RedPajama-Data-1T wurden die RedPajama-INCITE-Modelle mit 3B- (fertiggestellt) und 7B-Parametern (Preview) veröffentlicht Base-Modell Instruction-Tuned-Modell Chat-Modell Das 3B-Modell ist in seiner Klasse das leistungsstärkste. Durch seine geringe Größe ist es schnell und kann sogar auf Hardware wie einer vor fünf Jahren erschienenen RTX 2070 ausgeführt werden Die Instruction-Tuned-Version des 7B-Modells liegt im HELM-Benchmark 3 Punkte vor LLaMA 7B Das 7B-Modell (Training zu 80 % abgeschlossen) übertrifft bereits das Pythia-7B-Modell Wenn das 7B-Training in wenigen Wochen abgeschlossen ist, wird es LLaMA 7B übertreffen Das 3B-Modell wurde mit 800 Milliarden Tokens stabilisiert, und das 7B-Modell wird mit 1 Billion Tokens fertig trainiert und weiter verbessert

(together.xyz)

7 Punkte von xguru 2023-05-08 | 2 Kommentare | Auf WhatsApp teilen

Ein Projekt zur Entwicklung eines vollständig offenen Sprachmodells
Auf Basis des vor drei Wochen veröffentlichten Datensatzes RedPajama-Data-1T wurden die RedPajama-INCITE-Modelle mit 3B- (fertiggestellt) und 7B-Parametern (Preview) veröffentlicht
- Base-Modell
- Instruction-Tuned-Modell
- Chat-Modell
Das 3B-Modell ist in seiner Klasse das leistungsstärkste. Durch seine geringe Größe ist es schnell und kann sogar auf Hardware wie einer vor fünf Jahren erschienenen RTX 2070 ausgeführt werden
Die Instruction-Tuned-Version des 7B-Modells liegt im HELM-Benchmark 3 Punkte vor LLaMA 7B
Das 7B-Modell (Training zu 80 % abgeschlossen) übertrifft bereits das Pythia-7B-Modell
Wenn das 7B-Training in wenigen Wochen abgeschlossen ist, wird es LLaMA 7B übertreffen
Das 3B-Modell wurde mit 800 Milliarden Tokens stabilisiert, und das 7B-Modell wird mit 1 Billion Tokens fertig trainiert und weiter verbessert

2 Kommentare

coremaker 2023-05-08

Das ist zwar ein wichtiges Ereignis für Forschung und die Weiterentwicklung von KI,
aber solche Modelle werden bei kommerzieller Nutzung wahrscheinlich keine Lösung für problematische Aspekte bieten.
Für den kommerziellen Einsatz scheint es notwendig zu sein, neben der Nutzung des Modells auch Arbeiten wie Fine-Tuning oder die Bereitstellung zusätzlicher Filter unbedingt zu begleiten.

xguru 2023-05-08

RedPajama – Open-Source-Projekt zur Neuentwicklung des LLaMA-Datensatzes

RedPajama 3B- und 7B-Modelle vorgestellt

Verwandte Beiträge

2 Kommentare