15 Punkte von xguru 2023-04-18 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Bietet neue Vision-Language-Funktionen, ähnlich denen, die in GPT-4 demonstriert wurden
    • Beschreibt Bilder detailliert, erklärt anhand von Essensfotos die Zubereitung, findet Probleme, erstellt Werbetexte oder schreibt von Bildern inspirierte Geschichten und Gedichte
  • Zeigt bereits hervorragende Leistung, indem lediglich BLIP-2 und Vicuna über eine einzige Projektionsebene verbunden werden
  • Wurde in zwei Stufen trainiert
    • 5 Millionen Bild-Text-Paare wurden mit 4 A100 in 10 Stunden trainiert. Schon in dieser Phase versteht Vicuna Bilder, aber die Generierungsfähigkeit wird stark beeinträchtigt
    • Um dieses Problem zu lösen und die Nutzbarkeit zu verbessern, wird eine neue Methode vorgeschlagen, bei der das Modell selbst zusammen mit ChatGPT genutzt wird, um hochwertige Bild-Text-Paare zu erzeugen
    • Auf dieser Basis wurde ein hochwertiger Datensatz in kleinem Umfang erstellt (insgesamt 3.500 Paare)
    • In der zweiten Fine-Tuning-Phase wurde dieser kleine Datensatz mit dialogorientierten Templates trainiert, um die Zuverlässigkeit der Generierung und die allgemeine Nutzbarkeit zu verbessern
    • Erstaunlicherweise ist diese Phase recheneffizient und dauert mit nur einer A100 lediglich 7 Minuten

Noch keine Kommentare.

Noch keine Kommentare.