6 Punkte von xguru 2023-06-14 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Für eine gute Zero-Shot-Leistung von LLMs sind hochwertige Instruction-Sets unverzichtbar, und das gilt ebenso für VLMs (Vision-Language-Modelle)
  • Aktuelle Vision-Language-Instruction-Sets sind jedoch in Bezug auf Menge, Vielfalt und Kreativität stark eingeschränkt
  • Vorgestellt wird MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
  • Ein Datensatz bestehend aus 2,2 Millionen einzigartigen Anweisungen aus Bildern und Videos sowie 2,8 Millionen multimodalen Instruction-Response-Paaren
  • Otter ist ein großes VLM, das mit dem MIMIC-IT-Datensatz trainiert wurde
  • Unterstützt 8 Sprachen: Englisch, Chinesisch, Koreanisch, Japanisch, Deutsch, Französisch, Spanisch und Arabisch

Noch keine Kommentare.

Noch keine Kommentare.