- Bietet neue Vision-Language-Funktionen, ähnlich denen, die in GPT-4 demonstriert wurden
- Beschreibt Bilder detailliert, erklärt anhand von Essensfotos die Zubereitung, findet Probleme, erstellt Werbetexte oder schreibt von Bildern inspirierte Geschichten und Gedichte
- Zeigt bereits hervorragende Leistung, indem lediglich BLIP-2 und Vicuna über eine einzige Projektionsebene verbunden werden
- Wurde in zwei Stufen trainiert
- 5 Millionen Bild-Text-Paare wurden mit 4 A100 in 10 Stunden trainiert. Schon in dieser Phase versteht Vicuna Bilder, aber die Generierungsfähigkeit wird stark beeinträchtigt
- Um dieses Problem zu lösen und die Nutzbarkeit zu verbessern, wird eine neue Methode vorgeschlagen, bei der das Modell selbst zusammen mit ChatGPT genutzt wird, um hochwertige Bild-Text-Paare zu erzeugen
- Auf dieser Basis wurde ein hochwertiger Datensatz in kleinem Umfang erstellt (insgesamt 3.500 Paare)
- In der zweiten Fine-Tuning-Phase wurde dieser kleine Datensatz mit dialogorientierten Templates trainiert, um die Zuverlässigkeit der Generierung und die allgemeine Nutzbarkeit zu verbessern
- Erstaunlicherweise ist diese Phase recheneffizient und dauert mit nur einer A100 lediglich 7 Minuten
Noch keine Kommentare.