- Ein Projekt zur Entwicklung eines vollständig offenen Sprachmodells
- Auf Basis des vor drei Wochen veröffentlichten Datensatzes RedPajama-Data-1T wurden die RedPajama-INCITE-Modelle mit 3B- (fertiggestellt) und 7B-Parametern (Preview) veröffentlicht
- Base-Modell
- Instruction-Tuned-Modell
- Chat-Modell
- Das 3B-Modell ist in seiner Klasse das leistungsstärkste. Durch seine geringe Größe ist es schnell und kann sogar auf Hardware wie einer vor fünf Jahren erschienenen RTX 2070 ausgeführt werden
- Die Instruction-Tuned-Version des 7B-Modells liegt im HELM-Benchmark 3 Punkte vor LLaMA 7B
- Das 7B-Modell (Training zu 80 % abgeschlossen) übertrifft bereits das Pythia-7B-Modell
- Wenn das 7B-Training in wenigen Wochen abgeschlossen ist, wird es LLaMA 7B übertreffen
- Das 3B-Modell wurde mit 800 Milliarden Tokens stabilisiert, und das 7B-Modell wird mit 1 Billion Tokens fertig trainiert und weiter verbessert
2 Kommentare
Das ist zwar ein wichtiges Ereignis für Forschung und die Weiterentwicklung von KI,
aber solche Modelle werden bei kommerzieller Nutzung wahrscheinlich keine Lösung für problematische Aspekte bieten.
Für den kommerziellen Einsatz scheint es notwendig zu sein, neben der Nutzung des Modells auch Arbeiten wie Fine-Tuning oder die Bereitstellung zusätzlicher Filter unbedingt zu begleiten.
RedPajama – Open-Source-Projekt zur Neuentwicklung des LLaMA-Datensatzes