14 Punkte von xguru 2023-04-19 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Projekt, um nicht halb-offene Modelle wie LLaMA, Alpaca oder Vicuna zu schaffen, sondern reproduzierbare und vollständig offene Sprachmodelle
  • Drei Bestandteile
    • Pre-Training-Daten mit hoher Qualität und breiter Abdeckung
    • Ein auf diesen Daten basierendes, im großen Maßstab trainiertes Basismodell
    • Instruction-Tuning-Daten und -Modelle, um das Basismodell sicher und nutzbar zu machen
  • Als erste Komponente wurde der Datensatz RedPajama-Data-1T veröffentlicht
    • Ein vollständig offener Datensatz mit 1,2 Billionen Tokens, erzeugt nach dem im LLaMA-Paper beschriebenen Rezept
    • Über HuggingFace herunterladbar. Insgesamt 5 TB (komprimiert als 3 TB verteilt)
    • Besteht aus 7 Datenbestandteilen: jeweils vorverarbeitet und gefiltert, sodass die Größenordnung der im LLaMA-Paper ähnelt (Vorverarbeitungsmethoden und Filter sind ebenfalls auf GitHub veröffentlicht)
      • CommonCrawl (878b) - Web-Crawling-Daten
      • C4 (175b) - Colossal, Cleaned version of Common Crawl
      • GitHub (59b) - Nach Lizenz und Qualität gefilterte Daten von GitHub
      • arXiv (28b) - Wissenschaftliche Paper und Artikel (ohne Boilerplate)
      • Books (26b) - Öffentliches Bücher-Korpus, aus dem Duplikate anhand von Inhaltsähnlichkeit entfernt wurden
      • Wikipedia (24b) - Einige Wikipedia-Seiten (ohne Boilerplate)
      • StackExchange (20b) - Einige StackExchange-Seiten (ohne Boilerplate)
  • Der nächste Schritt ist das Training eines leistungsstarken Basismodells. Veröffentlichung in einigen Wochen geplant
  • Für das Instruction-Tuning soll Material verwendet werden, das über OpenChatkit bereitgestellt wurde