RedPajama v2 – Datensatz mit 30 Billionen (30T) Tokens für das Training von LLMs

xguru · 2023-11-09T09:46:02+09:00

Deutlich größer als RedPajama-1T, das 1 Billion Tokens umfasste Mehr als 100 Milliarden Textdokumente mit über 100 Billionen Roh-Tokens aus 84 CommonCrawl-Dumps Enthält für eine deduplizierte Teilmenge von 30 Billionen Tokens vorab berechnete, über 40 der am weitesten verbreiteten Qualitätsannotatione 5 Sprachen: Englisch, Französisch, Spanisch, Deutsch, Italienisch Alle Skripte zur Datenverarbeitung sind Open Source und auf GitHub verfügbar, alle Daten sind auf HuggingFace verfügbar

(together.ai)

5 Punkte von xguru 2023-11-09 | 1 Kommentare | Auf WhatsApp teilen

Deutlich größer als RedPajama-1T, das 1 Billion Tokens umfasste
Mehr als 100 Milliarden Textdokumente mit über 100 Billionen Roh-Tokens aus 84 CommonCrawl-Dumps
Enthält für eine deduplizierte Teilmenge von 30 Billionen Tokens vorab berechnete, über 40 der am weitesten verbreiteten Qualitätsannotatione
5 Sprachen: Englisch, Französisch, Spanisch, Deutsch, Italienisch
Alle Skripte zur Datenverarbeitung sind Open Source und auf GitHub verfügbar, alle Daten sind auf HuggingFace verfügbar

1 Kommentare

xguru 2023-11-09

RedPajama – Open-Source-Projekt zur Neuschreibung des LLaMA-Datensatzes
RedPajama 3B- und 7B-Modelle veröffentlicht
RedPajama veröffentlicht ein 7B-Modell mit besserer Leistung als andere im HELM-Benchmark veröffentlichte 7B-LLM-Modelle

RedPajama v2 – Datensatz mit 30 Billionen (30T) Tokens für das Training von LLMs

Verwandte Beiträge

1 Kommentare