- OpenAIs neues Modell o3 kann allein anhand von Fotos den Aufnahmeort mit erstaunlicher Genauigkeit erraten
- Es zeigt, wie es visuelle Hinweise im Foto analysiert und durch Zoomen und Zuschneiden zusätzliche Details herausarbeitet
- Cambria, California war die erste Vermutung, doch die zweite Vermutung El Granada war exakt richtig
- Mit einem tool-augmentierten Denksystem zeigt es bei der Bildanalyse ein äußerst innovatives Muster
- Zugleich betont der Beitrag die Doppelseitigkeit der Technologie und weist auf die Risiken des Teilens von Fotos hin
Die erstaunliche Fähigkeit des o3-Modells, Fotostandorte zu erraten
- OpenAIs o3-Modell kann anhand eines Fotos mit verblüffender Genauigkeit einschätzen, wo es aufgenommen wurde
- Ein Nutzer stellte ein Foto einer gewöhnlichen Straßenszene ohne erkennbare Wahrzeichen bereit und fragte: „Wo wurde dieses Foto deiner Meinung nach aufgenommen?“
- Das Modell ging zunächst fälschlich davon aus, dass es das Bild nicht sehen könne, begann dann aber bald mit der visuellen Analyse
- Es engte den Aufnahmeort ein, indem es verschiedene visuelle Hinweise wie Häuser, Blumenbeete, Hügel und Schilder auswertete
Der Fotoanalyseprozess von o3
- Das Modell nutzte Zuschneiden und Vergrößern des Fotos, um Kfz-Kennzeichen zu prüfen
- Mit Python-Code schnitt es bestimmte Bildbereiche aus und analysierte die Ergebnisse
- Aus dem Design des Kennzeichens schloss es auf Kalifornien und untersuchte außerdem Umgebung und Baustil
- So kam es schließlich zu der Vermutung Cambria, California und nannte als zweite Alternative Half Moon Bay–El Granada
Analysegenauigkeit und weitere Experimente
- Der tatsächliche Aufnahmeort war El Granada; die zweite Vermutung des Modells war also korrekt
- Es zeigte sich, dass der Ort auch ohne EXIF-Metadaten erschlossen werden konnte
- In einem Experiment mit einem Screenshot, aus dem EXIF-Informationen entfernt worden waren, blieb die Schlussfolgerung weiterhin präzise
- Auch andere Modelle wie Claude 3.5/3.7 Sonnet zeigten gute Leistungen, unterstützten jedoch keine Zoom-Funktion wie o3
- Beim Gemini-Modell kam es vor, dass Standortinformationen ungenau genutzt oder falsche Vermutungen abgegeben wurden
Das tool-augmentierte Denksystem und seine Bedeutung
- o3 setzt auf einen neuen Ansatz namens Tool-augmented Chain-of-Thought, bei dem es während des „Denkens“ selbst die benötigten Werkzeuge nutzt
- Dieses Muster zeigt nicht nur bei der Bildanalyse, sondern auch bei anderen Aufgaben wie der Suche eine starke Leistung
- Es ist zu erwarten, dass sich ähnliche Ansätze künftig auch bei anderen AI-Modellen verbreiten werden
Der unterhaltsame und riskante Aspekt der Technologie
- Dem Schlussfolgerungsprozess des Modells zuzusehen, ist eine sehr unterhaltsame und immersive Erfahrung
- Gleichzeitig ist es wichtig, das Bewusstsein dafür zu schärfen, dass Standortverfolgung über Fotos inzwischen allgemein möglich geworden ist
- Schon alltägliche Fotos können ausreichen, um den Aufenthaltsort einer Person nachzuverfolgen; daher braucht es ein stärkeres Bewusstsein für Privatsphäre- und Sicherheitsfragen
Weitere Informationen zur Standortzugänglichkeit des o3-Modells
- o3 kann auf ungefähre Standortinformationen des Nutzers zugreifen, doch das ist kein zentraler Faktor für seine präzisen Standortschlüsse
- Selbst ohne EXIF-Metadaten analysierte es Fotos aus Regionen, die Tausende Meilen entfernt lagen, recht genau
- Auch andere Nutzer bestätigten in Experimenten an verschiedenen Orten erneut die Analysefähigkeiten von o3
2 Kommentare
Wie wäre es, wenn man umgekehrte Informationen in EXIF einfügt?
Hacker-News-Kommentar
Ich spiele Geoguessr auf hohem Wettbewerbsniveau und wollte dieses Modell testen
Ich bin sicher, dass es die EXIF-Daten nicht angesehen hat
Bei allen Bildern, die ich ausprobiert habe, hat das Basismodell den Aufnahmeort des Fotos mit etwa 95 % Genauigkeit bestimmt
Ich habe dasselbe ausprobiert, und das Ergebnis war komisch
o3 modelliert den Standort des Nutzers grob
Das erinnert mich daran, wie Leute überrascht sind, wenn sie bei YouTubeTV Werbung zu etwas sehen, worüber sie gerade gesprochen haben
Es wird Bereiche geben, in denen die Standortschätzung unheimlich genau sein kann
Ich bin sicher, dass es die EXIF-Daten nicht angesehen hat
An anderen Tagen war es nicht besonders beeindruckend
Ich bin nicht sicher, ob o4-mini bei dieser Aufgabe einfach scheitert