11 Punkte von xguru 2023-03-31 | 1 Kommentare | Auf WhatsApp teilen
  • Ziel ist die Entwicklung eines multimodalen Systems, das Bild- und Texteingaben gemeinsam verarbeiten kann, ähnlich wie GPT-4
  • Dafür wurde das Flamingo-Modell von DeepMind, ein LMM (Large Multimodal Model), das Bilder/Videos/Text verarbeitet und Schlussfolgerungen daraus zieht, als Open Source implementiert
  • In der ersten Veröffentlichung enthalten
    • Python-Framework zum Trainieren von LMMs im Flamingo-Stil
    • Großer multimodaler Datensatz mit verschachtelten Bild-/Text-Inhalten
    • In-Context-Learning-Evaluierungsbenchmark für Vision-Language-Tasks
    • Auf LLaMA basierendes OpenFlamingo-9B-Modell
  • Da der Trainingsdatensatz von Flamingo nicht öffentlich ist, wurde zum Training der Multimodal-C4-Datensatz von LAION-2B verwendet und aus 10 Millionen Samples 5 Millionen Samples extrahiert