- Ein Multimodal Large Language Model (MLLM), das allgemeine Formate erkennt, im Kontext lernt (few-shot) und Anweisungen befolgt (zero-shot)
- Ein mit Text, Bildern und Bild-Beschriftungspaaren trainiertes Modell, das bei den folgenden Aufgaben beeindruckende Leistung zeigt
- Sprachverständnis, -generierung und NLP ohne OCR (direkte Erkennung aus Dokumentbildern)
- Multimodaler Dialog, Bildbeschreibung und visuelle Fragebeantwortung
- Vision-Aufgaben wie Bilderkennung mit Beschreibungen (Festlegung der Klassifikation durch Textanweisungen)
- Durch Cross-Modal Transfer (Übertragung von Wissen von Sprache auf Multimodalität und von Multimodalität auf Sprache) kann ein MLLM Vorteile erzielen
1 Kommentare
Repo: https://github.com/microsoft/unilm