- Deutlich größer als RedPajama-1T, das 1 Billion Tokens umfasste
- Mehr als 100 Milliarden Textdokumente mit über 100 Billionen Roh-Tokens aus 84 CommonCrawl-Dumps
- Enthält für eine deduplizierte Teilmenge von 30 Billionen Tokens vorab berechnete, über 40 der am weitesten verbreiteten Qualitätsannotatione
- 5 Sprachen: Englisch, Französisch, Spanisch, Deutsch, Italienisch
- Alle Skripte zur Datenverarbeitung sind Open Source und auf GitHub verfügbar, alle Daten sind auf HuggingFace verfügbar
1 Kommentare
RedPajama – Open-Source-Projekt zur Neuschreibung des LLaMA-Datensatzes
RedPajama 3B- und 7B-Modelle veröffentlicht
RedPajama veröffentlicht ein 7B-Modell mit besserer Leistung als andere im HELM-Benchmark veröffentlichte 7B-LLM-Modelle