9 Punkte von xguru 2023-03-02 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Multimodal Large Language Model (MLLM), das allgemeine Formate erkennt, im Kontext lernt (few-shot) und Anweisungen befolgt (zero-shot)
  • Ein mit Text, Bildern und Bild-Beschriftungspaaren trainiertes Modell, das bei den folgenden Aufgaben beeindruckende Leistung zeigt
    1. Sprachverständnis, -generierung und NLP ohne OCR (direkte Erkennung aus Dokumentbildern)
    2. Multimodaler Dialog, Bildbeschreibung und visuelle Fragebeantwortung
    3. Vision-Aufgaben wie Bilderkennung mit Beschreibungen (Festlegung der Klassifikation durch Textanweisungen)
  • Durch Cross-Modal Transfer (Übertragung von Wissen von Sprache auf Multimodalität und von Multimodalität auf Sprache) kann ein MLLM Vorteile erzielen

1 Kommentare