- Am 25. September 2023 kündigte OpenAI die Einführung von zwei neuen Funktionen für das fortschrittliche Modell GPT-4 an
- Diese neuen Funktionen ermöglichen es Nutzern, Fragen zu Bildern zu stellen und Sprache als Query-Eingabe zu verwenden, wodurch GPT-4 zu einem multimodalen Modell wird
- GPT-4V(ision) oder GPT-4V ist ein multimodales Modell, bei dem Nutzer Bilder als Eingabe hochladen und Fragen zu den Bildern stellen können; dies ist als die Aufgabe der visuellen Fragebeantwortung (VQA) bekannt
- GPT-4V wurde in verschiedenen Aufgaben getestet, darunter visuelle Fragebeantwortung, optische Zeichenerkennung (OCR), Mathematik-OCR, Objekterkennung, CAPTCHA, Kreuzworträtsel und Sudoku
- Das Modell schnitt bei allgemeinen Bildfragen gut ab und zeigte bei einigen Bildern Kontextverständnis. Außerdem konnte es Fragen zu in Bildern gezeigten Filmen erfolgreich beantworten, auch wenn der Filmtitel nicht textlich angegeben war
- Allerdings hat GPT-4V auch Einschränkungen. Es konnte Bounding Boxes für die Objekterkennung nicht präzise zurückgeben, was darauf hindeutet, dass es derzeit für diesen Zweck nicht geeignet ist. Außerdem liefert es durch Halluzinationen mitunter ungenaue Informationen
- OpenAI stellte eine Alpha-Version des Vision-Modells einer kleinen Nutzergruppe für Forschungszwecke zur Verfügung und gewann durch Prompts verschiedener Personen Feedback und Einblicke dazu, wie GPT-4V funktioniert
- OpenAI bemühte sich, mehrere mit dem Modell verbundene Risiken zu identifizieren, zu erforschen und zu mindern. So vermeidet GPT-4V beispielsweise, bestimmte Personen in Bildern zu identifizieren, und antwortet nicht auf Prompts im Zusammenhang mit Hasssymbolen
- Trotz seiner Einschränkungen ist GPT-4V eine bemerkenswerte Entwicklung im Bereich des maschinellen Lernens und der Verarbeitung natürlicher Sprache
1 Kommentare
Hacker-News-Diskussion