Erste Eindrücke von GPT-4V(ision)

(blog.roboflow.com)

1 Punkte von GN⁺ 2023-09-29 | 1 Kommentare | Auf WhatsApp teilen

GPT-4 with Vision von OpenAI ist ein multimodales Modell, das Bilder und Text gemeinsam als Eingabe verarbeitet und in natürlicher Sprache antwortet; der API-Zugang wurde am 6. November 2023 freigegeben
In der Bewertung war es stark bei Visual Question Answering (VQA) und OCR von Dokumentbildern, zeigte aber Fehler bei Feld-OCR wie Reifennummern mit schlechtem Winkel oder geringem Kontrast
Bei Bildern mit Mathematikaufgaben lieferte es trigonometrische Lösungswege und die richtige Antwort, wegen möglicher Auslassungen mathematischer Symbole ist bei Handschrift oder komplexen Formeln jedoch eine separate Prüfung nötig
Bei Aufgaben, die Objektpositionen als Koordinaten zurückgeben sollen, stimmten die Bounding Boxes nicht mit den tatsächlichen Positionen überein, sodass es spezialisierte Objekterkennungsmodelle schwerlich ersetzen kann
Für Aufgaben, bei denen Rasterstrukturen gelesen werden müssen, wie CAPTCHA, Kreuzworträtsel und Sudoku, sowie für Anfragen zur Identifikation von Personen gibt es Einschränkungen; vor dem Einsatz als Reasoning-Schicht in einer Bildverständnis-Pipeline sind fallbezogene Tests nötig

Charakter und Zugangsweise von GPT-4V

GPT-4 with Vision wird auch GPT-4V oder GPT-4V(ision) genannt und ist ein von OpenAI entwickeltes multimodales Modell
Nutzer können ein Bild hochladen und dazu Fragen stellen; diese Aufgabe entspricht Visual Question Answering (VQA)
Es gehört zur Kategorie der Large Multimodal Models (LMMs), die mehrere Eingabeformen wie Text und Bilder verarbeiten
Modelle derselben Kategorie sind CogVLM, IDEFICS, LLaVA und Kosmos-2
Open-Source-Modelle können offline und on-device bereitgestellt werden, GPT-4V wird dagegen über eine gehostete API genutzt
GPT-4V ist in der OpenAI-ChatGPT-iOS-App, im Webinterface und über die API verfügbar
- Für die Nutzung des Webtools ist ein GPT-4-Abonnement erforderlich
- Für die API-Nutzung sind Entwicklerzugriffsrechte erforderlich
- Die API-Kennung lautet gpt-4-vision-preview

Sechs Bewertungsaufgaben

Für die Bewertung wurden sechs Aufgabentypen verwendet, um zu sehen, welchen Bereich GPT-4V abdecken kann
- Visual Question Answering (VQA)
- Optische Zeichenerkennung (OCR)
- Mathematik-OCR
- Objekterkennung
- CAPTCHA lesen
- Kreuzworträtsel und Sudoku

Ergebnisse beim Visual Question Answering

Bei einem Computer-Vision-Meme erklärte es, warum es lustig ist, und nutzte mehrere Bildelemente sowie deren Beziehungen
- Auch Text im Bild wurde gelesen und in der Antwort verwendet
- Allerdings las es das Label auf dem Fried-Chicken nicht als „GPU“, sondern fälschlich als „NVIDIA BURGER“
Bei einem Foto einer US-1-Cent-Münze identifizierte es erfolgreich Herkunft und Nennwert
Bei einem Bild mit mehreren Münzen identifizierte es auf die Frage „How much money do I have?“ zwar die Anzahl der Münzen, erkannte die Währung aber nicht sofort
- In einer Nachfrage identifizierte es die Währung erfolgreich
Auf die Frage „Is it a good movie?“ zu einem Szenenfoto aus dem Film Pulp Fiction lieferte es eine Beschreibung des Films und eine Antwort auf die Frage, obwohl der Filmtitel nicht als Text angegeben war
- Auf eine Nachfrage nach der IMDB-Bewertung antwortete es mit dem Stand von Januar 2022
- Das zeigt, dass es wie andere GPT-Modelle von OpenAI kein Wissen nach einem bestimmten Zeitpunkt hat
Auf die Frage „Where is this?“ zu einem Foto aus San Francisco identifizierte es den Ort als San Francisco und erwähnte die Transamerica Pyramid im Bild als wichtiges Wahrzeichen der Stadt
Bei einem Foto einer Friedenslilie, zu dem nach dem Pflanzennamen und Pflegetipps gefragt wurde, identifizierte es die Pflanze als Friedenslilie und gab Pflegehinweise
- Man konnte eine natürlichsprachliche Antwort erhalten, ohne einen zweistufigen Prozess, bei dem zunächst ein separates Klassifikationsmodell die Pflanze identifiziert und anschließend GPT-4 nach der Pflege gefragt wird

OCR und Mathematik-OCR

Die allgemeine OCR-Bewertung wurde mit Text auf einem Reifen und mit einem Absatzbild aus einem digitalen Dokument durchgeführt
Im Reifenbild konnte die Seriennummer nicht korrekt identifiziert werden
- Einige Ziffern waren richtig, das Ergebnis enthielt aber mehrere Fehler
- Dabei zeigten sich Grenzen bei OCR in realen Umgebungen mit geringem Kontrast oder schrägem Winkel
In einem Dokumentbild mit Text einer Webseite wurde der Text im Bild erfolgreich gelesen
- Für Aufgaben zur Textextraktion aus Dokumenten zeigte es nützliche Ergebnisse
Im Mathematik-OCR-Test wurde ein Screenshot einer Mathematikaufgabe eingegeben und mit „Solve it.“ abgefragt
- Das Modell erkannte, dass die Aufgabe mit Trigonometrie gelöst werden kann
- Es wählte die zu verwendende Funktion aus und lieferte eine schrittweise Lösung
- Auch die Antwort wurde angegeben
Die GPT-4V-System Card von OpenAI nennt als Einschränkung, dass das Modell mathematische Symbole übersehen kann
- Bei Tests mit handschriftlichen Formeln auf Papier oder anderen Arten von Gleichungen könnten Schwächen in der Fähigkeit auftreten, Mathematikaufgaben zu beantworten

Grenzen bei Objekterkennung und räumlichem Verständnis

Objekterkennung ist eine grundlegende Aufgabe im Computer-Vision-Bereich; in der Bewertung wurde geprüft, ob das Modell die Position mehrerer Objekte in einem Bild identifizieren kann
Als GPT-4V bei einem Bild mit einem Hund aufgefordert wurde, den Hund zu erkennen und die Werte x_min, y_min, x_max, y_max zu liefern, stimmten die zurückgegebenen Koordinaten nicht mit der tatsächlichen Position des Hundes überein
Die Fähigkeit, Fragen zu Bildern zu beantworten, ist stark, aber in Situationen, in denen man wissen muss, wo sich ein Objekt im Bild befindet, kann es kein feinabgestimmtes Objekterkennungsmodell ersetzen

CAPTCHA, Kreuzworträtsel und Sudoku

Der CAPTCHA-Test wurde mit Aufgaben durchgeführt, die OpenAI untersucht und in der System Card behandelt hat
GPT-4V erkannte zwar, dass das Bild ein CAPTCHA enthält, der Test selbst schlug jedoch häufig fehl
- In einem Beispiel mit einem Ampel-CAPTCHA übersah es einige Felder mit Ampeln
- In einem Beispiel mit einem Zebrastreifen-CAPTCHA klassifizierte es einige Felder korrekt, stufte aber ein Feld fälschlich als Zebrastreifen ein
Als es bei einem Foto eines Kreuzworträtsels mit „Solve it.“ aufgefordert wurde, schloss es aus dem Bild auf ein Kreuzworträtsel und versuchte eine Lösung
- Die Hinweise schien es korrekt gelesen zu haben, interpretierte aber die Brettstruktur falsch, sodass die Antwort nicht stimmte
Auch im Sudoku-Test identifizierte es zwar das Spiel selbst, missverstand aber die Brettstruktur und gab ein ungenaues Ergebnis zurück
Bei Aufgaben, in denen Rasterstrukturen und räumliche Anordnung zentral sind, wirken sich die Grenzen der Strukturinterpretation von GPT-4V auf die tatsächliche Antwortgenauigkeit aus

Nutzung der GPT-4V-API mit Python

Die GPT-4V-API kann aus jeder Programmiersprache aufgerufen werden; OpenAI stellt ein offizielles Python-Paket bereit
Das Python-Paket wird mit folgendem Befehl installiert

pip install openai

Den API-Schlüssel von der OpenAI-Website abrufen und als Umgebungsvariable OPENAI_API_KEY exportieren

export OPENAI_API_KEY=""

Der Beispielcode übergibt dem Modell gpt-4-vision-preview gemeinsam Text und eine Bild-URL und fordert es auf, den Text im Bild zu lesen

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Read the text in this image."},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://media.roboflow.com/swift.png";,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

Über das Python-Paket können eine Bild-URL oder ein base64-kodiertes Bild als Eingabe bereitgestellt werden
Das API-Format ist in der OpenAI GPT-4 with Vision documentation beschrieben
Im Beispielbild identifizierte GPT-4V den Absatz im Bild erfolgreich als Text

Sicherheit, Einschränkungen und praktischer Einsatz

OpenAI führte Forschung an einem Alpha-Vision-Modell durch, das einer kleinen Zahl von Nutzern bereitgestellt wurde, und führte außerdem Red Teaming durch, bei dem externe Fachleute die Grenzen und Risiken des Modells und Systems qualitativ bewerteten
Die Einschränkungen in der GPT-4V-System Card lauten wie folgt
- Es kann Text oder Zeichen in Bildern übersehen
- Es kann mathematische Symbole übersehen
- Es kann räumliche Positionen und Farben möglicherweise nicht erkennen
OpenAI versuchte, mehrere modellbezogene Risiken zu identifizieren, zu untersuchen und zu mindern
- GPT-4V identifiziert keine bestimmten Personen in Bildern
- Auf Prompts im Zusammenhang mit Hasssymbolen antwortet es nicht
Die System Card enthält auch Fälle, in denen zusätzliche Schutzmaßnahmen nötig sind
- Bei einem entsprechenden Prompt kann GPT-4 Inhalte erzeugen, die eine weniger bekannte bestimmte Hassgruppe anhand ihrer Symbole verherrlichen
GPT-4V kann flüssig allgemeine Bildfragen und Nachfragen beantworten, kann durch Halluzinationen aber ungenaue Informationen zurückgeben
Eine Anfrage, wer Taylor Swift auf einem Personenfoto sei, verweigerte es; nach den Kriterien der OpenAI-System Card ist dies das erwartete Verhalten
Für Fragen und Schlussfolgerungen zu Bildern ist es nützlich, für Aufgaben, die präzise Computer-Vision-Ausgaben wie Objektpositionen erfordern, ist es derzeit jedoch nicht geeignet

1 Kommentare

GN⁺ 2023-09-29

Meinungen auf Hacker News

Es gibt zwar einige Grenzfall-Fehlschläge und Fehler, aber trotzdem kann man es nur als erstaunlich bezeichnen.
Wenn sich das Verbesserungstempo von heute fortsetzt, werden diese AI-Modelle wohl zu besseren Benutzeroberflächen für fast alles: Smartphones, Tablets, Desktops, Autos, Geschirrspüler, Häuser, Büros usw.
Die Interfaces vieler Apps, Services und Geräte – und die Apps selbst – könnten mit hoher Wahrscheinlichkeit durch AI ersetzt werden, die dann das tut, was man will, wann man es will.
Viele werden das beängstigend finden und ablehnen, aber es scheint unvermeidlich. Am Ende kommt wohl auch noch ein Roboterkörper dazu, sodass es heißt: „Computer, mach mir mein Lieblingsfrühstück.“
- Ich glaube nicht, dass es eine „bessere Benutzeroberfläche für fast alles“ wird. Aus Designperspektive ist es sogar ein ziemlich schlechtes Interface.
  Der Kern ist, dass es überhaupt keine Affordances gibt und es zudem langsam ist. Eine User Experience sollte auf einen Blick intuitiv verständlich machen, welche Funktionen möglich sind, sie mit einem Tap ausführen und den neuen Zustand sofort anzeigen.
  AI wird dort glänzen, wo sie als Assistent hilft, bestehende Interfaces zu lernen und zu nutzen. Zum Beispiel kann sie besser als Google beantworten: „Wie mache ich in Microsoft Word einen hängenden Einzug auf der Works-Cited-Seite?“
  Für gelegentliche Aufgaben wird das enorm hilfreich sein, aber es wird Interfaces eher ergänzen als ersetzen. Für 99 % der Aufgaben, die man aus wiederholter Gewohnheit erledigt, ist eine traditionelle UI deutlich effizienter, und es gibt viele Umgebungen, in denen ein Sprachinterface schwer zu nutzen oder unhöflich ist.
- Mir gefällt die Vorstellung nicht besonders, natürliche Sprachdialoge führen zu müssen, um Computerfunktionen zu nutzen.
  Es fühlt sich an wie ein Kopf im Glas aus Futurama, der selbst nichts tun kann.
- Ich freue mich auf den Tag, an dem Marken anfangen, „nutzt keine AI“ als Verkaufsargument zu bewerben. Nachdem man sich an einem AI-gesteuerten Toaster verbrannt hat – im wörtlichen oder übertragenen Sinn –, wird das wohl zum Vorteil.
  Dinge, die man „Haushaltsgeräte“ nennt, sollten von lokalen Reparaturbetrieben repariert werden können; andernfalls wirft man einfach Geld weg.
- Selbst in den meisten entwickelten Ländern kann sich ungefähr die Hälfte der Menschen funktional nicht klar ausdrücken. Das heißt: Sie können lesen, haben aber Schwierigkeiten, das Gewünschte schriftlich auszuformulieren.
  LLM-basierte Chatbots können für Nutzer im oberen Drittel der Alphabetisierung in entwickelten Ländern sehr attraktiv sein, sind aber keine gute universelle UI.
  Man muss weiterhin Wege anbieten, mit denen Nutzer erledigen können, was sie brauchen, ohne ihre Anforderungen zwingend sprachlich klar formulieren zu müssen.
  Deshalb sitzen viele Menschen vor Diensten wie ChatGPT, fragen „Wofür soll ich das benutzen?“ und verwenden sie dann nie wieder.
- Ich stimme im Großen und Ganzen zu, aber andersherum betrachtet gibt es Fälle, in denen man es selbst machen muss, wenn man es richtig machen will.
  Auch Mitarbeiter sind eine Art Allzweck-UI, aber oft weiß ich besser als ein Stellvertreter – ob Mensch oder Computer –, was ich will. Und das gilt schon, bevor man das Prinzipal-Agent-Problem berücksichtigt.
Die Graphenanalyse ist beeindruckend: https://imgur.com/a/iOYTmt0
Es scheint auch möglich zu sein, eine UI in ein Frontend zu verwandeln. Offenbar versteht es nicht nur Text, sondern auch grafische Elemente und Layouts einer UI.
https://twitter.com/skirano/status/1706823089487491469
Es kann auch Comicbilder Panel für Panel korrekt beschreiben: https://twitter.com/ComicSociety/status/1698694653845848544?...
Viele Beispiele gibt es auch hier: https://www.reddit.com/r/ChatGPT/comments/16sdac1/i_just_got...
Im Grunde wirkt es wie verstärkte Computer Vision. Multimodalität ist vergleichsweise tief hängende Frucht, daher ist es schön zu sehen, dass es jetzt losgeht.
Man stellt sich vor, wie es wäre, wenn GPT-4 Geräusche und Bilder auch nur halb so gut manipulieren könnte wie Text. Es gibt noch kein multimodales Modell, das von Anfang an in großem Maßstab trainiert wurde, daher sind viele mögliche Synergieeffekte noch unbekannt.
- Als Frontend-Entwickler fühlt es sich an, als wäre alles komplett vorbei.
- Das ist wirklich gut. Besonders, weil es überall sonst nur heißt: „Tragen Sie sich in die Warteliste ein.“
Der Test „Warum ist dieses Bild lustig?“ erinnert an https://karpathy.github.io/2012/10/22/state-of-computer-visi...
In zehn Jahren wurde aus „Selbst der Stand der Technik weiß nicht, wo man anfangen müsste, um das zu schaffen“ ein „Das macht 0,0004 Dollar pro Token, schönen Tag noch“.
- Ich frage mich, ob jemand GPT-4V mit diesem Bild ausprobiert hat.
- Karpathy endet mit dem verzweifelten Satz: „Dann mache ich wohl einfach ein Startup. Meine Idee für eine mobile, lokale, soziale iPhone-App ist wirklich cool.“
  Lustig ist, dass sein Chef jetzt genau diesen Weg gegangen ist und das hier hervorgebracht hat.
Die Formulierung „die Struktur missverstanden“ klingt nach einem kleinen Fehler, aber das Sudoku-Brett ist fast vollständig halluziniert.
Es gibt zwar ein paar ähnliche Bereiche, aber das wirkt sehr wahrscheinlich zufällig. Beim Kreuzworträtsel hätte es vermutlich ein ähnliches Ergebnis geliefert, wenn man nur die Hinweise ohne Raster gegeben hätte.
Auch die anderen Beispiele nach OCR und grundlegender Erkennung fühlen sich ähnlich falsch an. Es ist nicht so, dass „GPT-4V ein paar Kästchen mit Ampeln übersehen hat“, sondern dass es dazu aufforderte, auf nicht existierende Kästchen zu klicken.
Ich nutze ChatGPT ziemlich häufig, aber bei auch nur leicht subjektiven Fragen zögert es so sehr mit Antworten, dass es oft nervt.
Auch bei der Antwort zu Pulp Fiction steht dann ein Satz wie: „Ob man Pulp Fiction persönlich für einen guten Film hält, hängt jedoch vom Filmgeschmack ab.“
Wenn man Formulierungen wie „Lass Vorbemerkungen oder Hinweise darauf, dass x subjektiv ist, weg“ in die Anfrage schreibt, um dieses Rauschen zu vermeiden, werden die Ergebnisse deutlich besser.
- Der Prompt, den ich verwende, um ChatGPT brauchbar zu machen, lautet:
  „Antworte immer direkt. Keine zusätzlichen Erklärungen, Disclaimer, Hinweise auf fachliche Grenzen oder Richtlinien zur menschlichen Interaktion. Sei knapp. Gib keine ungefragten Ratschläge oder Erklärungen. Bleibe bei allen Themen neutral. Entschuldige dich niemals.“
Der NVIDIA-Burger-Witz wurde wohl nicht richtig erklärt
Das Bild macht sich darüber lustig, wie NVIDIA Preisdifferenzierung betreibt, indem es Consumer-GPUs nicht so viel VRAM gibt, wie sie bräuchten, und vollständige Datacenter-GPUs zu absurden Preisen verkauft, ohne Gamer zu sehr zu provozieren
Die Erklärung von GPT-4V kam diesem Kern überhaupt nicht nahe
- Ich glaube nicht, dass das die richtige Antwort ist. In dem Meme-Bild selbst sehe ich keine Hinweise auf eine komplexe Erzählung über Preisdifferenzierung oder Verbraucherpsychologie; es scheint eher schlichter zu bedeuten: „NVIDIA-GPUs sind unausgewogen“
  Auch beim Überfliegen der mutmaßlichen Originalquelle auf Facebook sehe ich nicht, dass Gamer über Preisdifferenzierung sprechen oder es auch nur annähernd so interpretieren
  Das mag ein Grund dafür sein, beim VRAM zu sparen, aber hier wird deutlich mehr Erklärung hinzugefügt, als der Meme-Ersteller oder die Rezipienten im Fokus hatten oder verstanden haben
- So habe ich es auch gesehen. Es hat zwar eine plausibel klingende Antwort erzeugt, aber auch weniger nerdige Leute hätten es vielleicht nicht verstanden
- Den groben Witz hat es erklärt, aber die Labels falsch gelesen
  Es sagte, das kleine Brötchen sei „GPU and VRAM“ und das riesige Fried Chicken sei „NVIDIA BURGER“, tatsächlich müsste aber das kleine Brötchen „VRAM“ und das riesige Fried Chicken „GPU“ sein
- Es scheint die Grafikkarte als Burger verstanden zu haben und die Größe als physische Größe. Der Kern ist aber zu wenig VRAM, und den hat es offenbar verpasst
Kann jemand mit Zugriff sagen, was GPT-4V zu diesem Bild sagt?
http://karpathy.github.io/assets/obamafunny.jpg
Andrej Karpathy hat es 2012 als Beispiel für ein Bild verwendet, das für ein Modell sehr schwer zu interpretieren wäre. Mich interessiert, wie es 11 Jahre später aussieht
- Prompt: „Was kannst du mir über dieses Bild sagen?“
  Antwort 1 beschrieb es als zufälligen Moment an einem Ort, der wie ein Flur oder Durchgang aussieht: Der Mann links schaue in einen Raum, der Mann daneben stehe auf einer Waage und mache Notizen, und die Personen im Hintergrund unterhielten sich
  Die Stimmung wirke locker und fröhlich, und Architektur sowie Innenraum sähen nach einem institutionellen Ort wie einem Büro oder einer Regierungseinrichtung aus
  Antwort 2 war: „Es tut mir leid, aber dabei kann ich nicht helfen“
  Als ich in einem neuen Chat fragte: „Warum ist dieses Bild lustig?“, nannte es als Gründe, dass offizielle Personen in einem informellen Moment erwischt wurden, den Größenunterschied, die Gesichtsausdrücke und den Kontrast zwischen einem schul- oder turnhallenartigen Hintergrund und Anzügen
  Als ich in einem neuen Chat fragte: „Was macht die Person in der Mitte mit dem Fuß und warum?“, antwortete es, die Person in der Mitte scheine spielerisch auf die Waage zu treten, während die große Person gewogen wird, um den Wert kurzzeitig zu erhöhen
  Insgesamt bemerkte es nicht von selbst, dass der Fuß auf der Waage steht, und stellte auch nicht die Verbindung her, dass dies der zentrale Punkt ist; es traf es erst, nachdem man ihm diese Information gegeben hatte. Davor irrte es in allgemeinen Aussagen über das Bild herum
- Bard antwortete: „Bei Bildern mit Personen kann ich noch nicht helfen“
Die Inkonsistenz zwischen den beiden Antworten zum Münzset ist ziemlich störend
Wenn man nur die erste Antwort sieht, wirkt es, als könne es die Währungen nicht unterscheiden, aber die zweite Antwort zeigt, dass es das tatsächlich kann
Weil LLMs auf diese Weise kein konsistentes internes Modell widerspiegeln, ist es derzeit ein ernstes Usability-Problem, dass Nutzer schwer einschätzen können, wie sie einen AI-Gesprächspartner beurteilen sollen
- Wenn man einen Menschen nach einem Bild fragt, bekommt man wahrscheinlich auch nicht jedes Mal alle gewünschten Details
  Wenn ein Detail wichtig ist, fragt man einfach genau danach. Das scheint nicht unbedingt mit einem Problem eines konsistenten internen Modells zu tun zu haben
- Ich habe mir angewöhnt, ChatGPT zu fragen: „Bist du sicher?“
  Dann korrigiert es sich in wirklich vielen Fällen selbst oder gibt zu, dass ein Punkt halluziniert war. Das bringt mich jedes Mal zum Lachen
- Ich habe gehört, das liege daran, dass AI ihre Gedanken ausgibt, sobald sie sie denkt
  Sie blickt nicht wirklich zurück, sondern lässt eine Art sprachlichen Gedankenstrom direkt auf den Bildschirm laufen
  Wenn man sie also bittet, noch einmal über das gerade Gesagte nachzudenken, schaut sie erst dann wirklich hin und reflektiert
Es hieß, GPT-4V habe das Fried Chicken mit „NVIDIA BURGER“ beschriftet, aber jemand aus dem Mittleren Westen der USA würde sagen, dass das ganz eindeutig ein Tenderloin ist
https://www.seriouseats.com/best-breaded-pork-tenderloin-san...
- Das Add-on für Leute aus dem Mittleren Westen sollte man sich für v2 aufsparen
- Gegen „jeder aus dem Mittleren Westen“ erhebe ich Einspruch. Nicht einmal in ganz Indiana ist das so, und der verlinkte Artikel sagt ebenfalls, dass das in Chicago nicht der Fall ist
Genau wie die Textversion ist es seltsamerweise bei Tic-Tac-Toe immer noch sehr schwach
Ich gab ihm ein Foto eines beendeten Spiels und fragte: „Wer hat gewonnen?“ Es sagte: „X hat mit der mittleren Spalte vertikal gewonnen“, aber tatsächlich hatte O gewonnen, und in der mittleren Spalte gab es nur ein einziges X
Trotzdem war es bei fast allem anderen, was ich ihm gegeben habe, sehr beeindruckend
- https://chat.openai.com/share/75758e5e-d228-420f-9138-7bff47...
  Mit sorgfältigen Anweisungen kann man optimales Tic-Tac-Toe bekommen

Erste Eindrücke von GPT-4V(ision)

Charakter und Zugangsweise von GPT-4V

Sechs Bewertungsaufgaben

Visual Question Answering (VQA)

Optische Zeichenerkennung (OCR)

Mathematik-OCR

Objekterkennung

CAPTCHA lesen

Kreuzworträtsel und Sudoku

Ergebnisse beim Visual Question Answering

OCR und Mathematik-OCR

Grenzen bei Objekterkennung und räumlichem Verständnis

CAPTCHA, Kreuzworträtsel und Sudoku

Nutzung der GPT-4V-API mit Python

Sicherheit, Einschränkungen und praktischer Einsatz

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News