- Für eine gute Zero-Shot-Leistung von LLMs sind hochwertige Instruction-Sets unverzichtbar, und das gilt ebenso für VLMs (Vision-Language-Modelle)
- Aktuelle Vision-Language-Instruction-Sets sind jedoch in Bezug auf Menge, Vielfalt und Kreativität stark eingeschränkt
- Vorgestellt wird MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
- Ein Datensatz bestehend aus 2,2 Millionen einzigartigen Anweisungen aus Bildern und Videos sowie 2,8 Millionen multimodalen Instruction-Response-Paaren
- Otter ist ein großes VLM, das mit dem MIMIC-IT-Datensatz trainiert wurde
- Unterstützt 8 Sprachen: Englisch, Chinesisch, Koreanisch, Japanisch, Deutsch, Französisch, Spanisch und Arabisch
Noch keine Kommentare.