RedPajama – Open-Source-Projekt zur Nachbildung des LLaMA-Datensatzes

xguru · 2023-04-19T10:03:01+09:00

Ein Projekt, um nicht halb-offene Modelle wie LLaMA, Alpaca oder Vicuna zu schaffen, sondern reproduzierbare und vollständig offene Sprachmodelle Drei Bestandteile Pre-Training-Daten mit hoher Qualität und breiter Abdeckung Ein auf diesen Daten basierendes, im großen Maßstab trainiertes Basismodell Instruction-Tuning-Daten und -Modelle, um das Basismodell sicher und nutzbar zu machen Als erste Komponente wurde der Datensatz RedPajama-Data-1T veröffentlicht Ein vollständig offener Datensatz mit 1,2 Billionen Tokens, erzeugt nach dem im LLaMA-Paper beschriebenen Rezept Über HuggingFace herunterladbar. Insgesamt 5 TB (komprimiert als 3 TB verteilt) Besteht aus 7 Datenbestandteilen: jeweils vorverarbeitet und gefiltert, sodass die Größenordnung der im LLaMA-Paper ähnelt (Vorverarbeitungsmethoden und Filter sind ebenfalls auf GitHub veröffentlicht) CommonCrawl (878b) - Web-Crawling-Daten C4 (175b) - Colossal, Cleaned version of Common Crawl GitHub (59b) - Nach Lizenz und Qualität gefilterte Daten von GitHub arXiv (28b) - Wissenschaftliche Paper und Artikel (ohne Boilerplate) Books (26b) - Öffentliches Bücher-Korpus, aus dem Duplikate anhand von Inhaltsähnlichkeit entfernt wurden Wikipedia (24b) - Einige Wikipedia-Seiten (ohne Boilerplate) StackExchange (20b) - Einige StackExchange-Seiten (ohne Boilerplate) Der nächste Schritt ist das Training eines leistungsstarken Basismodells. Veröffentlichung in einigen Wochen geplant Für das Instruction-Tuning soll Material verwendet werden, das über OpenChatkit bereitgestellt wurde

(together.xyz)

14 Punkte von xguru 2023-04-19 | 1 Kommentare | Auf WhatsApp teilen

Ein Projekt, um nicht halb-offene Modelle wie LLaMA, Alpaca oder Vicuna zu schaffen, sondern reproduzierbare und vollständig offene Sprachmodelle
Drei Bestandteile
- Pre-Training-Daten mit hoher Qualität und breiter Abdeckung
- Ein auf diesen Daten basierendes, im großen Maßstab trainiertes Basismodell
- Instruction-Tuning-Daten und -Modelle, um das Basismodell sicher und nutzbar zu machen
Als erste Komponente wurde der Datensatz RedPajama-Data-1T veröffentlicht
- Ein vollständig offener Datensatz mit 1,2 Billionen Tokens, erzeugt nach dem im LLaMA-Paper beschriebenen Rezept
- Über HuggingFace herunterladbar. Insgesamt 5 TB (komprimiert als 3 TB verteilt)
- Besteht aus 7 Datenbestandteilen: jeweils vorverarbeitet und gefiltert, sodass die Größenordnung der im LLaMA-Paper ähnelt (Vorverarbeitungsmethoden und Filter sind ebenfalls auf GitHub veröffentlicht)
  - CommonCrawl (878b) - Web-Crawling-Daten
  - C4 (175b) - Colossal, Cleaned version of Common Crawl
  - GitHub (59b) - Nach Lizenz und Qualität gefilterte Daten von GitHub
  - arXiv (28b) - Wissenschaftliche Paper und Artikel (ohne Boilerplate)
  - Books (26b) - Öffentliches Bücher-Korpus, aus dem Duplikate anhand von Inhaltsähnlichkeit entfernt wurden
  - Wikipedia (24b) - Einige Wikipedia-Seiten (ohne Boilerplate)
  - StackExchange (20b) - Einige StackExchange-Seiten (ohne Boilerplate)
Der nächste Schritt ist das Training eines leistungsstarken Basismodells. Veröffentlichung in einigen Wochen geplant
Für das Instruction-Tuning soll Material verwendet werden, das über OpenChatkit bereitgestellt wurde

1 Kommentare

xguru 2023-04-19

OpenChatKit veröffentlicht – ein Open-Source-Projekt, mit dem sich ChatGPT umsetzen lässt

RedPajama – Open-Source-Projekt zur Nachbildung des LLaMA-Datensatzes

Verwandte Beiträge

1 Kommentare