Fuyu-8B – Open-Source-Multimodales LLM von Adept

xguru · 2023-10-23T10:37:02+09:00

Eine kleinere Version des multimodalen Modells (Bild + Text), das sie in ihren Produkten einsetzen Die Architektur und der Trainingsprozess sind sehr einfach (kein Bild-Encoder) Für digitale Agenten entwickelt, unterstützt es beliebige Bildauflösungen und kann Fragen zu Grafiken und Diagrammen sowie UI-basierte Fragen beantworten So schnell, dass selbst bei großen Bildern Antworten innerhalb von 100 ms generiert werden können Obwohl es für ihre eigenen Use Cases optimiert ist, liefert es auch bei standardisierten Benchmarks zum Bildverständnis hervorragende Ergebnisse Unter der CC-BY-NC-Lizenz veröffentlicht

(adept.ai)

9 Punkte von xguru 2023-10-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Eine kleinere Version des multimodalen Modells (Bild + Text), das sie in ihren Produkten einsetzen
Die Architektur und der Trainingsprozess sind sehr einfach (kein Bild-Encoder)
Für digitale Agenten entwickelt, unterstützt es beliebige Bildauflösungen und kann Fragen zu Grafiken und Diagrammen sowie UI-basierte Fragen beantworten
So schnell, dass selbst bei großen Bildern Antworten innerhalb von 100 ms generiert werden können
Obwohl es für ihre eigenen Use Cases optimiert ist, liefert es auch bei standardisierten Benchmarks zum Bildverständnis hervorragende Ergebnisse
Unter der CC-BY-NC-Lizenz veröffentlicht

Fuyu-8B – Open-Source-Multimodales LLM von Adept

Verwandte Beiträge

Noch keine Kommentare.