- Ein groß angelegter Trainingsdatensatz mit rund 740 Millionen Bild-Text-Paaren und vielen weiteren Attributen
- Gesammelt wurden Bilder in HTML-Dokumenten und ihre
alt-Attribute (Zeichenketten, die angezeigt werden, wenn ein Bild in HTML nicht auf dem Bildschirm dargestellt werden kann)
- Es wird erwartet, dass der Datensatz ergänzend zu anderen ähnlichen Datensätzen zum Training großer Basismodelle genutzt wird
- „COYO“ wurde zuvor bei der Entwicklung des bereits veröffentlichten hyperskaligen KI-Bildgenerierungsmodells
RQ-Transformer und des KI-Artists Karlo eingesetzt
- Details zum Datensammlungsprozess werden in einem später veröffentlichten Paper verfügbar sein
1 Kommentare
COYO-700M: Image-Text Pair Dataset
Kakao Brain veröffentlicht „COYO“, einen global führenden Datensatz