- Ziel ist die Entwicklung eines multimodalen Systems, das Bild- und Texteingaben gemeinsam verarbeiten kann, ähnlich wie GPT-4
- Dafür wurde das Flamingo-Modell von DeepMind, ein LMM (Large Multimodal Model), das Bilder/Videos/Text verarbeitet und Schlussfolgerungen daraus zieht, als Open Source implementiert
- In der ersten Veröffentlichung enthalten
- Python-Framework zum Trainieren von LMMs im Flamingo-Stil
- Großer multimodaler Datensatz mit verschachtelten Bild-/Text-Inhalten
- In-Context-Learning-Evaluierungsbenchmark für Vision-Language-Tasks
- Auf LLaMA basierendes OpenFlamingo-9B-Modell
- Da der Trainingsdatensatz von Flamingo nicht öffentlich ist, wurde zum Training der Multimodal-C4-Datensatz von LAION-2B verwendet und aus 10 Millionen Samples 5 Millionen Samples extrahiert
1 Kommentare
Flamingo: Visuell-sprachliches Modell für Few-Shot-Lernen