o3s Schätzung von Fotostandorten ist surreal, dystopisch und unterhaltsam

(simonwillison.net)

6 Punkte von GN⁺ 2025-04-27 | 2 Kommentare | Auf WhatsApp teilen

OpenAIs neues Modell o3 kann allein anhand von Fotos den Aufnahmeort mit erstaunlicher Genauigkeit erraten
Es zeigt, wie es visuelle Hinweise im Foto analysiert und durch Zoomen und Zuschneiden zusätzliche Details herausarbeitet
Cambria, California war die erste Vermutung, doch die zweite Vermutung El Granada war exakt richtig
Mit einem tool-augmentierten Denksystem zeigt es bei der Bildanalyse ein äußerst innovatives Muster
Zugleich betont der Beitrag die Doppelseitigkeit der Technologie und weist auf die Risiken des Teilens von Fotos hin

Die erstaunliche Fähigkeit des o3-Modells, Fotostandorte zu erraten

OpenAIs o3-Modell kann anhand eines Fotos mit verblüffender Genauigkeit einschätzen, wo es aufgenommen wurde
Ein Nutzer stellte ein Foto einer gewöhnlichen Straßenszene ohne erkennbare Wahrzeichen bereit und fragte: „Wo wurde dieses Foto deiner Meinung nach aufgenommen?“
Das Modell ging zunächst fälschlich davon aus, dass es das Bild nicht sehen könne, begann dann aber bald mit der visuellen Analyse
Es engte den Aufnahmeort ein, indem es verschiedene visuelle Hinweise wie Häuser, Blumenbeete, Hügel und Schilder auswertete

Der Fotoanalyseprozess von o3

Das Modell nutzte Zuschneiden und Vergrößern des Fotos, um Kfz-Kennzeichen zu prüfen
Mit Python-Code schnitt es bestimmte Bildbereiche aus und analysierte die Ergebnisse
Aus dem Design des Kennzeichens schloss es auf Kalifornien und untersuchte außerdem Umgebung und Baustil
So kam es schließlich zu der Vermutung Cambria, California und nannte als zweite Alternative Half Moon Bay–El Granada

Analysegenauigkeit und weitere Experimente

Der tatsächliche Aufnahmeort war El Granada; die zweite Vermutung des Modells war also korrekt
Es zeigte sich, dass der Ort auch ohne EXIF-Metadaten erschlossen werden konnte
In einem Experiment mit einem Screenshot, aus dem EXIF-Informationen entfernt worden waren, blieb die Schlussfolgerung weiterhin präzise
Auch andere Modelle wie Claude 3.5/3.7 Sonnet zeigten gute Leistungen, unterstützten jedoch keine Zoom-Funktion wie o3
Beim Gemini-Modell kam es vor, dass Standortinformationen ungenau genutzt oder falsche Vermutungen abgegeben wurden

Das tool-augmentierte Denksystem und seine Bedeutung

o3 setzt auf einen neuen Ansatz namens Tool-augmented Chain-of-Thought, bei dem es während des „Denkens“ selbst die benötigten Werkzeuge nutzt
Dieses Muster zeigt nicht nur bei der Bildanalyse, sondern auch bei anderen Aufgaben wie der Suche eine starke Leistung
Es ist zu erwarten, dass sich ähnliche Ansätze künftig auch bei anderen AI-Modellen verbreiten werden

Der unterhaltsame und riskante Aspekt der Technologie

Dem Schlussfolgerungsprozess des Modells zuzusehen, ist eine sehr unterhaltsame und immersive Erfahrung
Gleichzeitig ist es wichtig, das Bewusstsein dafür zu schärfen, dass Standortverfolgung über Fotos inzwischen allgemein möglich geworden ist
Schon alltägliche Fotos können ausreichen, um den Aufenthaltsort einer Person nachzuverfolgen; daher braucht es ein stärkeres Bewusstsein für Privatsphäre- und Sicherheitsfragen

Weitere Informationen zur Standortzugänglichkeit des o3-Modells

o3 kann auf ungefähre Standortinformationen des Nutzers zugreifen, doch das ist kein zentraler Faktor für seine präzisen Standortschlüsse
Selbst ohne EXIF-Metadaten analysierte es Fotos aus Regionen, die Tausende Meilen entfernt lagen, recht genau
Auch andere Nutzer bestätigten in Experimenten an verschiedenen Orten erneut die Analysefähigkeiten von o3

2 Kommentare

unsure4000 2025-04-27

Wie wäre es, wenn man umgekehrte Informationen in EXIF einfügt?

GN⁺ 2025-04-27

Hacker-News-Kommentar

Ich spiele Geoguessr auf hohem Wettbewerbsniveau und wollte dieses Modell testen
- erstaunlich gut
- es hat ein Foto aus meiner Gegend korrekt erkannt und erwähnt, dass es die Information genutzt hat, dass ich in der Nähe wohne
- selbst bei alten Urlaubsfotos lag es besser als menschliche Profi-Spieler
- darunter verschiedene Orte in Europa, Mittelamerika und den USA
- der Weg zur Schlussfolgerung ähnelt dem eines Menschen
- es analysiert Pflanzen, Gelände, Architektur, Straßeninfrastruktur, Schilder usw.
- Menschen können das auch, brauchen dafür aber tausende Spiele oder intensives Lernen
- ich nutze Hunderte von Karteikarten, um Straßenmarkierungen, Strommasten, Gebäude usw. auswendig zu lernen
- diese Modelle verfügen über mehr Informationen, als eine Einzelperson sich merken kann
Ich bin sicher, dass es die EXIF-Daten nicht angesehen hat
- wenn doch, hätte es anfangs nicht Cambria geraten
- einmal sagte es sogar, dass es die Bilddaten überhaupt nicht sehen könne
- das kann man natürlich niemals glauben
- ich sollte die EXIF-Daten entfernen und es erneut laufen lassen
Bei allen Bildern, die ich ausprobiert habe, hat das Basismodell den Aufnahmeort des Fotos mit etwa 95 % Genauigkeit bestimmt
- beim ursprünglichen Bild des OP hat 4o Carmel-by-the-Sea genauer geraten
- in der CoT ist schon im ersten Schlussfolgerungsschritt der fast exakte Ort zu sehen
- das Modell ignoriert das und probiert andere Orte aus
- wenn das Basismodell die Hinweise nicht kennt, verhält sich o3 nicht intelligent
- das Modell wurde RL-ed, um unabhängig von der Anzahl der Tool-Nutzungen auf die richtige Antwort zu kommen
Ich habe dasselbe ausprobiert, und das Ergebnis war komisch
- hatte überhaupt keine Ahnung von den Hinweisen
- ich sah mehrfach den Prompt, dass es nicht die Stadt sei, in der ich mich befinde
- am lustigsten war es, als es anfing, unscharfen Asphalt zu analysieren
- nach 6 Minuten lag o3 selbstbewusst falsch
o3 modelliert den Standort des Nutzers grob
- ich glaube, das soll die neue Suchfunktion unterstützen
- ich habe zwei weitere Beispielabfragen ausgeführt, und beide zeigten überzeugende Ergebnisse
Das erinnert mich daran, wie Leute überrascht sind, wenn sie bei YouTubeTV Werbung zu etwas sehen, worüber sie gerade gesprochen haben
- tatsächlich kann modernes ML die Relevanz von Werbung gut erraten, indem es Standort, Datenpartner und letzte Suchanfragen nutzt
- selbst wenn man das erklärt, glauben manche immer noch, dass der Computer zuhört
Es wird Bereiche geben, in denen die Standortschätzung unheimlich genau sein kann
- wenn man sich aber den Schlussfolgerungsprozess ansieht, gibt es auch viele Bereiche mit geringerer Genauigkeit
- wenn man ihm ein Foto von einem Trailerpark in Kansas zeigt, trifft das Modell wahrscheinlich nur den Bundesstaat
- wenn die Roboterapokalypse ausbricht, ist Kalifornien wohl zuerst in Gefahr
Ich bin sicher, dass es die EXIF-Daten nicht angesehen hat
- wenn es bei einer ähnlichen Aufgabe schummeln würde, würde es einen leicht falschen Ort vorschlagen
- es wäre interessant zu sehen, wie es mit demselben Bild ohne EXIF-Daten abschneidet
An anderen Tagen war es nicht besonders beeindruckend
- es konnte die bereitgestellten Bilder nicht finden
- es wiederholte Bildzuschnitte und ähnliche Suchen
- wenn man die Bildgenerierungsfunktion nutzt, merkt man, dass es eine große Bilddatenbank als Referenzmaterial verwendet
Ich bin nicht sicher, ob o4-mini bei dieser Aufgabe einfach scheitert
- bei den bereitgestellten Fotos hat es nicht gut abgeschnitten
- ich gab ihm ein Foto mit dem Text "Sprüngli" am Basler Hauptbahnhof, und das Modell schlug Zürich vor
- das zweite Foto war schwieriger
- es zeigte das Innere eines Museums in Metz, und das Modell lag von Anfang an daneben
- insgesamt ist das Bildverständnis und Schlussfolgern immer noch cool, aber an weniger bekannten Orten funktioniert es nicht gut

o3s Schätzung von Fotostandorten ist surreal, dystopisch und unterhaltsam

Die erstaunliche Fähigkeit des o3-Modells, Fotostandorte zu erraten

Der Fotoanalyseprozess von o3

Analysegenauigkeit und weitere Experimente

Das tool-augmentierte Denksystem und seine Bedeutung

Der unterhaltsame und riskante Aspekt der Technologie

Weitere Informationen zur Standortzugänglichkeit des o3-Modells

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentar