- Ein Projekt, um nicht halb-offene Modelle wie LLaMA, Alpaca oder Vicuna zu schaffen, sondern reproduzierbare und vollständig offene Sprachmodelle
- Drei Bestandteile
- Pre-Training-Daten mit hoher Qualität und breiter Abdeckung
- Ein auf diesen Daten basierendes, im großen Maßstab trainiertes Basismodell
- Instruction-Tuning-Daten und -Modelle, um das Basismodell sicher und nutzbar zu machen
- Als erste Komponente wurde der Datensatz RedPajama-Data-1T veröffentlicht
- Ein vollständig offener Datensatz mit 1,2 Billionen Tokens, erzeugt nach dem im LLaMA-Paper beschriebenen Rezept
- Über HuggingFace herunterladbar. Insgesamt 5 TB (komprimiert als 3 TB verteilt)
- Besteht aus 7 Datenbestandteilen: jeweils vorverarbeitet und gefiltert, sodass die Größenordnung der im LLaMA-Paper ähnelt (Vorverarbeitungsmethoden und Filter sind ebenfalls auf GitHub veröffentlicht)
- CommonCrawl (878b) - Web-Crawling-Daten
- C4 (175b) - Colossal, Cleaned version of Common Crawl
- GitHub (59b) - Nach Lizenz und Qualität gefilterte Daten von GitHub
- arXiv (28b) - Wissenschaftliche Paper und Artikel (ohne Boilerplate)
- Books (26b) - Öffentliches Bücher-Korpus, aus dem Duplikate anhand von Inhaltsähnlichkeit entfernt wurden
- Wikipedia (24b) - Einige Wikipedia-Seiten (ohne Boilerplate)
- StackExchange (20b) - Einige StackExchange-Seiten (ohne Boilerplate)
- Der nächste Schritt ist das Training eines leistungsstarken Basismodells. Veröffentlichung in einigen Wochen geplant
- Für das Instruction-Tuning soll Material verwendet werden, das über OpenChatkit bereitgestellt wurde
1 Kommentare
OpenChatKit veröffentlicht – ein Open-Source-Projekt, mit dem sich ChatGPT umsetzen lässt