5 Punkte von xguru 2023-11-09 | 1 Kommentare | Auf WhatsApp teilen
  • Deutlich größer als RedPajama-1T, das 1 Billion Tokens umfasste
  • Mehr als 100 Milliarden Textdokumente mit über 100 Billionen Roh-Tokens aus 84 CommonCrawl-Dumps
  • Enthält für eine deduplizierte Teilmenge von 30 Billionen Tokens vorab berechnete, über 40 der am weitesten verbreiteten Qualitätsannotatione
  • 5 Sprachen: Englisch, Französisch, Spanisch, Deutsch, Italienisch
  • Alle Skripte zur Datenverarbeitung sind Open Source und auf GitHub verfügbar, alle Daten sind auf HuggingFace verfügbar