Otter: Multimodales Modell mit In-Context Instruction Tuning

xguru · 2023-06-14T10:16:01+09:00

Für eine gute Zero-Shot-Leistung von LLMs sind hochwertige Instruction-Sets unverzichtbar, und das gilt ebenso für VLMs (Vision-Language-Modelle) Aktuelle Vision-Language-Instruction-Sets sind jedoch in Bezug auf Menge, Vielfalt und Kreativität stark eingeschränkt Vorgestellt wird MIMIC-IT (MultI-Modal In-Context Instruction Tuning) Ein Datensatz bestehend aus 2,2 Millionen einzigartigen Anweisungen aus Bildern und Videos sowie 2,8 Millionen multimodalen Instruction-Response-Paaren Otter ist ein großes VLM, das mit dem MIMIC-IT-Datensatz trainiert wurde Unterstützt 8 Sprachen: Englisch, Chinesisch, Koreanisch, Japanisch, Deutsch, Französisch, Spanisch und Arabisch

(github.com/Luodian)

6 Punkte von xguru 2023-06-14 | Noch keine Kommentare. | Auf WhatsApp teilen

Für eine gute Zero-Shot-Leistung von LLMs sind hochwertige Instruction-Sets unverzichtbar, und das gilt ebenso für VLMs (Vision-Language-Modelle)
Aktuelle Vision-Language-Instruction-Sets sind jedoch in Bezug auf Menge, Vielfalt und Kreativität stark eingeschränkt
Vorgestellt wird MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
Ein Datensatz bestehend aus 2,2 Millionen einzigartigen Anweisungen aus Bildern und Videos sowie 2,8 Millionen multimodalen Instruction-Response-Paaren
Otter ist ein großes VLM, das mit dem MIMIC-IT-Datensatz trainiert wurde
Unterstützt 8 Sprachen: Englisch, Chinesisch, Koreanisch, Japanisch, Deutsch, Französisch, Spanisch und Arabisch

Otter: Multimodales Modell mit In-Context Instruction Tuning

Verwandte Beiträge

Noch keine Kommentare.