LAION-400M – Datensatz mit 400 Millionen Bild-Text-Paaren

(laion.ai)

12 Punkte von xguru 2021-09-15 | Noch keine Kommentare. | Auf WhatsApp teilen

→ Dump von per Web-Crawling erfassten Webseitendaten aus den Jahren 2014 bis 2021

→ Nach dem Herausfiltern von Bild-/Text-Ähnlichkeiten unter 0,3 manuell verifiziert

→ 50-GB-Parquet-Datei mit URL- und Caption-Metadaten

→ 10-TB-WebDataset in der Vollversion, direkt fürs Training nutzbar mit 256x256-Bildern/Captions/Metadaten

→ 1 TB mit 400 Mio. Text-/Bild-CLIP-Embeddings, nützlich zum Neuaufbau von KNN-Indizes

→ Zwei 4-GB-KNN-Indizes, die die Suche im Datensatz erleichtern

Verwandte Beiträge