PaliGemma 2 vorgestellt
(developers.googleblog.com)Google hat PaliGemma 2 vorgestellt, das neueste Vision-Language-Modell der Gemma-Produktfamilie. PaliGemma 2 basiert auf dem bestehenden Gemma-2-Modell und erweitert dessen Fähigkeiten um das Verstehen und die Interaktion mit Bildern, wodurch die Möglichkeiten für vielfältige KI-Anwendungen ausgebaut werden.
- Skalierbare Leistung: Es bietet verschiedene Modellgrößen (3B, 10B, 28B Parameter) und Auflösungen (224px, 448px, 896px) und liefert damit für unterschiedliche Aufgaben optimierte Leistung.
- Erzeugung langer Bildbeschreibungen: Es erstellt detaillierte und kontextgerechte Beschreibungen zu Bildern und geht dabei über einfache Objekterkennung hinaus, indem es Handlungen, Emotionen und die gesamte Geschichte einer Szene erklärt.
- Erschließung neuer Anwendungsbereiche: Es zeigt starke Leistung in verschiedenen Feldern wie der Erkennung chemischer Formeln, der Notenerkennung, räumlichem Schlussfolgern und der Erstellung von Berichten zu Thorax-Röntgenaufnahmen.
- Einfache Upgrades und Fine-Tuning: Bestehende PaliGemma-Nutzer können unkompliziert upgraden und das Modell leicht für bestimmte Aufgaben und Datensätze fine-tunen.
Erweiterung des Gemmaverse-Ökosystems:
Seit der Veröffentlichung von PaliGemma ist die Gemma-Produktfamilie schnell zum Gemmaverse gewachsen, einem lebendigen Ökosystem mit Zehntausenden Modellen und Anwendungen. Verschiedene innovative Beispiele – darunter Fortschritte bei der visuellen Dokumentensuche von ColPali, Fine-Tuning-Techniken von RoboFlow und Entwicklungen beim Echtzeit-Objekt-Tracking – zeigen das Potenzial des Gemmaverse.
Noch keine Kommentare.