- Der weltweit größte frei verfügbare Bilddatensatz
→ Dump von per Web-Crawling erfassten Webseitendaten aus den Jahren 2014 bis 2021
- Alle Bilder/Texte wurden mit OpenAIs CLIP vollständig gefiltert
→ Nach dem Herausfiltern von Bild-/Text-Ähnlichkeiten unter 0,3 manuell verifiziert
- Struktur des Datensatzes
→ 50-GB-Parquet-Datei mit URL- und Caption-Metadaten
→ 10-TB-WebDataset in der Vollversion, direkt fürs Training nutzbar mit 256x256-Bildern/Captions/Metadaten
→ 1 TB mit 400 Mio. Text-/Bild-CLIP-Embeddings, nützlich zum Neuaufbau von KNN-Indizes
→ Zwei 4-GB-KNN-Indizes, die die Suche im Datensatz erleichtern
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
Noch keine Kommentare.