Grok-1.5 Vision Preview: Vorstellung des ersten multimodalen Modells mit fortschrittlichen visuellen Verarbeitungsfunktionen

(x.ai)

5 Punkte von brainer 2024-04-14 | Noch keine Kommentare. | Auf WhatsApp teilen

• Das multimodale Modell der ersten Generation, Grok-1.5V, kann nun zusätzlich zu seinen starken Textfähigkeiten ein breites Spektrum visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Charts, Screenshots und Fotos.

• Grok-1.5V übertrifft bestehende multimodale Modelle in verschiedenen Bereichen wie interdisziplinärem Schlussfolgern, dem Verständnis von Dokumenten, wissenschaftlichen Diagrammen, Charts, Screenshots und Fotos und zeigt herausragende Fähigkeiten beim Verständnis der physischen Welt.

• Zur Bewertung grundlegender Fähigkeiten multimodaler Modelle beim Verständnis realer räumlicher Umgebungen anhand von mehr als 700 Bildern mit Fragen und leicht überprüfbaren Antworten wird ein neuer Benchmark namens RealWorldQA vorgestellt.

• Grok-1.5V wird in Kürze für frühe Tester und bestehende Grok-Nutzer verfügbar sein, und die multimodalen Fähigkeiten werden aktiv über verschiedene Modalitäten wie Bilder, Audio und Video hinweg erweitert.

Grok-1.5 Vision Preview: Vorstellung des ersten multimodalen Modells mit fortschrittlichen visuellen Verarbeitungsfunktionen

Verwandte Beiträge

Noch keine Kommentare.