12 Punkte von xguru 2021-09-15 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Der weltweit größte frei verfügbare Bilddatensatz

→ Dump von per Web-Crawling erfassten Webseitendaten aus den Jahren 2014 bis 2021

  • Alle Bilder/Texte wurden mit OpenAIs CLIP vollständig gefiltert

→ Nach dem Herausfiltern von Bild-/Text-Ähnlichkeiten unter 0,3 manuell verifiziert

  • Struktur des Datensatzes

→ 50-GB-Parquet-Datei mit URL- und Caption-Metadaten

→ 10-TB-WebDataset in der Vollversion, direkt fürs Training nutzbar mit 256x256-Bildern/Captions/Metadaten

→ 1 TB mit 400 Mio. Text-/Bild-CLIP-Embeddings, nützlich zum Neuaufbau von KNN-Indizes

→ Zwei 4-GB-KNN-Indizes, die die Suche im Datensatz erleichtern

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

Noch keine Kommentare.

Noch keine Kommentare.