OpenFlamingo – Open-Source-Framework zum Trainieren/Bewerten großer multimodaler Modelle (LMM)

xguru · 2023-03-31T10:15:01+09:00

Ziel ist die Entwicklung eines multimodalen Systems, das Bild- und Texteingaben gemeinsam verarbeiten kann, ähnlich wie GPT-4 Dafür wurde das Flamingo-Modell von DeepMind, ein LMM (Large Multimodal Model), das Bilder/Videos/Text verarbeitet und Schlussfolgerungen daraus zieht, als Open Source implementiert In der ersten Veröffentlichung enthalten Python-Framework zum Trainieren von LMMs im Flamingo-Stil Großer multimodaler Datensatz mit verschachtelten Bild-/Text-Inhalten In-Context-Learning-Evaluierungsbenchmark für Vision-Language-Tasks Auf LLaMA basierendes OpenFlamingo-9B-Modell Da der Trainingsdatensatz von Flamingo nicht öffentlich ist, wurde zum Training der Multimodal-C4-Datensatz von LAION-2B verwendet und aus 10 Millionen Samples 5 Millionen Samples extrahiert

(laion.ai)

11 Punkte von xguru 2023-03-31 | 1 Kommentare | Auf WhatsApp teilen

Ziel ist die Entwicklung eines multimodalen Systems, das Bild- und Texteingaben gemeinsam verarbeiten kann, ähnlich wie GPT-4
Dafür wurde das Flamingo-Modell von DeepMind, ein LMM (Large Multimodal Model), das Bilder/Videos/Text verarbeitet und Schlussfolgerungen daraus zieht, als Open Source implementiert
In der ersten Veröffentlichung enthalten
- Python-Framework zum Trainieren von LMMs im Flamingo-Stil
- Großer multimodaler Datensatz mit verschachtelten Bild-/Text-Inhalten
- In-Context-Learning-Evaluierungsbenchmark für Vision-Language-Tasks
- Auf LLaMA basierendes OpenFlamingo-9B-Modell
Da der Trainingsdatensatz von Flamingo nicht öffentlich ist, wurde zum Training der Multimodal-C4-Datensatz von LAION-2B verwendet und aus 10 Millionen Samples 5 Millionen Samples extrahiert

1 Kommentare

xguru 2023-03-31

Flamingo: Visuell-sprachliches Modell für Few-Shot-Lernen

OpenFlamingo – Open-Source-Framework zum Trainieren/Bewerten großer multimodaler Modelle (LMM)

Verwandte Beiträge

1 Kommentare