• Das multimodale Modell der ersten Generation, Grok-1.5V, kann nun zusätzlich zu seinen starken Textfähigkeiten ein breites Spektrum visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Charts, Screenshots und Fotos.
• Grok-1.5V übertrifft bestehende multimodale Modelle in verschiedenen Bereichen wie interdisziplinärem Schlussfolgern, dem Verständnis von Dokumenten, wissenschaftlichen Diagrammen, Charts, Screenshots und Fotos und zeigt herausragende Fähigkeiten beim Verständnis der physischen Welt.
• Zur Bewertung grundlegender Fähigkeiten multimodaler Modelle beim Verständnis realer räumlicher Umgebungen anhand von mehr als 700 Bildern mit Fragen und leicht überprüfbaren Antworten wird ein neuer Benchmark namens RealWorldQA vorgestellt.
• Grok-1.5V wird in Kürze für frühe Tester und bestehende Grok-Nutzer verfügbar sein, und die multimodalen Fähigkeiten werden aktiv über verschiedene Modalitäten wie Bilder, Audio und Video hinweg erweitert.
Noch keine Kommentare.