- Eine kleinere Version des multimodalen Modells (Bild + Text), das sie in ihren Produkten einsetzen
- Die Architektur und der Trainingsprozess sind sehr einfach (kein Bild-Encoder)
- Für digitale Agenten entwickelt, unterstützt es beliebige Bildauflösungen und kann Fragen zu Grafiken und Diagrammen sowie UI-basierte Fragen beantworten
- So schnell, dass selbst bei großen Bildern Antworten innerhalb von 100 ms generiert werden können
- Obwohl es für ihre eigenen Use Cases optimiert ist, liefert es auch bei standardisierten Benchmarks zum Bildverständnis hervorragende Ergebnisse
- Unter der CC-BY-NC-Lizenz veröffentlicht
Noch keine Kommentare.