1 Punkte von GN⁺ 2023-09-29 | 1 Kommentare | Auf WhatsApp teilen
  • Am 25. September 2023 kündigte OpenAI die Einführung von zwei neuen Funktionen für das fortschrittliche Modell GPT-4 an
  • Diese neuen Funktionen ermöglichen es Nutzern, Fragen zu Bildern zu stellen und Sprache als Query-Eingabe zu verwenden, wodurch GPT-4 zu einem multimodalen Modell wird
  • GPT-4V(ision) oder GPT-4V ist ein multimodales Modell, bei dem Nutzer Bilder als Eingabe hochladen und Fragen zu den Bildern stellen können; dies ist als die Aufgabe der visuellen Fragebeantwortung (VQA) bekannt
  • GPT-4V wurde in verschiedenen Aufgaben getestet, darunter visuelle Fragebeantwortung, optische Zeichenerkennung (OCR), Mathematik-OCR, Objekterkennung, CAPTCHA, Kreuzworträtsel und Sudoku
  • Das Modell schnitt bei allgemeinen Bildfragen gut ab und zeigte bei einigen Bildern Kontextverständnis. Außerdem konnte es Fragen zu in Bildern gezeigten Filmen erfolgreich beantworten, auch wenn der Filmtitel nicht textlich angegeben war
  • Allerdings hat GPT-4V auch Einschränkungen. Es konnte Bounding Boxes für die Objekterkennung nicht präzise zurückgeben, was darauf hindeutet, dass es derzeit für diesen Zweck nicht geeignet ist. Außerdem liefert es durch Halluzinationen mitunter ungenaue Informationen
  • OpenAI stellte eine Alpha-Version des Vision-Modells einer kleinen Nutzergruppe für Forschungszwecke zur Verfügung und gewann durch Prompts verschiedener Personen Feedback und Einblicke dazu, wie GPT-4V funktioniert
  • OpenAI bemühte sich, mehrere mit dem Modell verbundene Risiken zu identifizieren, zu erforschen und zu mindern. So vermeidet GPT-4V beispielsweise, bestimmte Personen in Bildern zu identifizieren, und antwortet nicht auf Prompts im Zusammenhang mit Hasssymbolen
  • Trotz seiner Einschränkungen ist GPT-4V eine bemerkenswerte Entwicklung im Bereich des maschinellen Lernens und der Verarbeitung natürlicher Sprache

1 Kommentare

 
GN⁺ 2023-09-29
Hacker-News-Diskussion
  • Ein Artikel über das Potenzial des KI-Modells GPT-4V, mit der Prognose, dass es eine hervorragende Benutzeroberfläche für verschiedene Geräte und Anwendungen werden könnte.
  • Trotz einiger extremer Fehlleistungen ist die Fähigkeit der KI, UI-Elemente und Layouts zu verstehen und mit ihnen zu interagieren, beeindruckend.
  • GPT-4V kann Comic-Bilder panelweise präzise beschreiben und zeigt damit fortgeschrittene Computer-Vision-Fähigkeiten.
  • Die Fähigkeit der KI, Humor in Bildern zu interpretieren, hat sich in den letzten 10 Jahren erheblich verbessert.
  • Zu den Einschränkungen von GPT-4V gehört, dass es die Struktur von Spielbrettern falsch interpretiert oder bestimmte Elemente in Bildern übersieht.
  • Die KI kann einen Witz über die GPU-Preisstrategie von NVIDIA nicht korrekt erklären.
  • Die Antworten von GPT-4V können inkonsistent sein, insbesondere bei der Interpretation von Währungen in einem Satz Münzen.
  • Die KI zögert oft, subjektive Fragen zu beantworten, was bei einigen Nutzern zu Unzufriedenheit führt.
  • Trotz seiner fortgeschrittenen Funktionen hat GPT-4V immer noch Schwierigkeiten mit einfachen Spielen wie Tic-Tac-Toe.