COYO-700M - Datensatz mit 740 Millionen Bild-Text-Paaren, veröffentlicht von Kakao Brain

xguru · 2022-09-01T09:15:05+09:00

Ein groß angelegter Trainingsdatensatz mit rund 740 Millionen Bild-Text-Paaren und vielen weiteren Attributen Gesammelt wurden Bilder in HTML-Dokumenten und ihre alt-Attribute (Zeichenketten, die angezeigt werden, wenn ein Bild in HTML nicht auf dem Bildschirm dargestellt werden kann) Es wird erwartet, dass der Datensatz ergänzend zu anderen ähnlichen Datensätzen zum Training großer Basismodelle genutzt wird „COYO“ wurde zuvor bei der Entwicklung des bereits veröffentlichten hyperskaligen KI-Bildgenerierungsmodells RQ-Transformer und des KI-Artists Karlo eingesetzt Details zum Datensammlungsprozess werden in einem später veröffentlichten Paper verfügbar sein

(github.com/kakaobrain)

8 Punkte von xguru 2022-09-01 | 1 Kommentare | Auf WhatsApp teilen

Ein groß angelegter Trainingsdatensatz mit rund 740 Millionen Bild-Text-Paaren und vielen weiteren Attributen
Gesammelt wurden Bilder in HTML-Dokumenten und ihre alt-Attribute (Zeichenketten, die angezeigt werden, wenn ein Bild in HTML nicht auf dem Bildschirm dargestellt werden kann)
Es wird erwartet, dass der Datensatz ergänzend zu anderen ähnlichen Datensätzen zum Training großer Basismodelle genutzt wird
„COYO“ wurde zuvor bei der Entwicklung des bereits veröffentlichten hyperskaligen KI-Bildgenerierungsmodells RQ-Transformer und des KI-Artists Karlo eingesetzt
Details zum Datensammlungsprozess werden in einem später veröffentlichten Paper verfügbar sein

1 Kommentare

xguru 2022-09-01

COYO-700M: Image-Text Pair Dataset
Kakao Brain veröffentlicht „COYO“, einen global führenden Datensatz

COYO-700M - Datensatz mit 740 Millionen Bild-Text-Paaren, veröffentlicht von Kakao Brain

Verwandte Beiträge

1 Kommentare