Microsoft Kosmos-1: Multimodales LLM (MLLM)

xguru · 2023-03-02T09:56:41+09:00

Ein Multimodal Large Language Model (MLLM), das allgemeine Formate erkennt, im Kontext lernt (few-shot) und Anweisungen befolgt (zero-shot) Ein mit Text, Bildern und Bild-Beschriftungspaaren trainiertes Modell, das bei den folgenden Aufgaben beeindruckende Leistung zeigt Sprachverständnis, -generierung und NLP ohne OCR (direkte Erkennung aus Dokumentbildern) Multimodaler Dialog, Bildbeschreibung und visuelle Fragebeantwortung Vision-Aufgaben wie Bilderkennung mit Beschreibungen (Festlegung der Klassifikation durch Textanweisungen) Durch Cross-Modal Transfer (Übertragung von Wissen von Sprache auf Multimodalität und von Multimodalität auf Sprache) kann ein MLLM Vorteile erzielen

(arxiv.org)

9 Punkte von xguru 2023-03-02 | 1 Kommentare | Auf WhatsApp teilen

Ein Multimodal Large Language Model (MLLM), das allgemeine Formate erkennt, im Kontext lernt (few-shot) und Anweisungen befolgt (zero-shot)
Ein mit Text, Bildern und Bild-Beschriftungspaaren trainiertes Modell, das bei den folgenden Aufgaben beeindruckende Leistung zeigt
1. Sprachverständnis, -generierung und NLP ohne OCR (direkte Erkennung aus Dokumentbildern)
2. Multimodaler Dialog, Bildbeschreibung und visuelle Fragebeantwortung
3. Vision-Aufgaben wie Bilderkennung mit Beschreibungen (Festlegung der Klassifikation durch Textanweisungen)
Durch Cross-Modal Transfer (Übertragung von Wissen von Sprache auf Multimodalität und von Multimodalität auf Sprache) kann ein MLLM Vorteile erzielen

1 Kommentare

xguru 2023-03-02

Repo: https://github.com/microsoft/unilm

Microsoft Kosmos-1: Multimodales LLM (MLLM)

Verwandte Beiträge

1 Kommentare