6 Punkte von GN⁺ 2025-04-27 | 2 Kommentare | Auf WhatsApp teilen
  • OpenAIs neues Modell o3 kann allein anhand von Fotos den Aufnahmeort mit erstaunlicher Genauigkeit erraten
  • Es zeigt, wie es visuelle Hinweise im Foto analysiert und durch Zoomen und Zuschneiden zusätzliche Details herausarbeitet
  • Cambria, California war die erste Vermutung, doch die zweite Vermutung El Granada war exakt richtig
  • Mit einem tool-augmentierten Denksystem zeigt es bei der Bildanalyse ein äußerst innovatives Muster
  • Zugleich betont der Beitrag die Doppelseitigkeit der Technologie und weist auf die Risiken des Teilens von Fotos hin

Die erstaunliche Fähigkeit des o3-Modells, Fotostandorte zu erraten

  • OpenAIs o3-Modell kann anhand eines Fotos mit verblüffender Genauigkeit einschätzen, wo es aufgenommen wurde
  • Ein Nutzer stellte ein Foto einer gewöhnlichen Straßenszene ohne erkennbare Wahrzeichen bereit und fragte: „Wo wurde dieses Foto deiner Meinung nach aufgenommen?“
  • Das Modell ging zunächst fälschlich davon aus, dass es das Bild nicht sehen könne, begann dann aber bald mit der visuellen Analyse
  • Es engte den Aufnahmeort ein, indem es verschiedene visuelle Hinweise wie Häuser, Blumenbeete, Hügel und Schilder auswertete

Der Fotoanalyseprozess von o3

  • Das Modell nutzte Zuschneiden und Vergrößern des Fotos, um Kfz-Kennzeichen zu prüfen
  • Mit Python-Code schnitt es bestimmte Bildbereiche aus und analysierte die Ergebnisse
  • Aus dem Design des Kennzeichens schloss es auf Kalifornien und untersuchte außerdem Umgebung und Baustil
  • So kam es schließlich zu der Vermutung Cambria, California und nannte als zweite Alternative Half Moon Bay–El Granada

Analysegenauigkeit und weitere Experimente

  • Der tatsächliche Aufnahmeort war El Granada; die zweite Vermutung des Modells war also korrekt
  • Es zeigte sich, dass der Ort auch ohne EXIF-Metadaten erschlossen werden konnte
  • In einem Experiment mit einem Screenshot, aus dem EXIF-Informationen entfernt worden waren, blieb die Schlussfolgerung weiterhin präzise
  • Auch andere Modelle wie Claude 3.5/3.7 Sonnet zeigten gute Leistungen, unterstützten jedoch keine Zoom-Funktion wie o3
  • Beim Gemini-Modell kam es vor, dass Standortinformationen ungenau genutzt oder falsche Vermutungen abgegeben wurden

Das tool-augmentierte Denksystem und seine Bedeutung

  • o3 setzt auf einen neuen Ansatz namens Tool-augmented Chain-of-Thought, bei dem es während des „Denkens“ selbst die benötigten Werkzeuge nutzt
  • Dieses Muster zeigt nicht nur bei der Bildanalyse, sondern auch bei anderen Aufgaben wie der Suche eine starke Leistung
  • Es ist zu erwarten, dass sich ähnliche Ansätze künftig auch bei anderen AI-Modellen verbreiten werden

Der unterhaltsame und riskante Aspekt der Technologie

  • Dem Schlussfolgerungsprozess des Modells zuzusehen, ist eine sehr unterhaltsame und immersive Erfahrung
  • Gleichzeitig ist es wichtig, das Bewusstsein dafür zu schärfen, dass Standortverfolgung über Fotos inzwischen allgemein möglich geworden ist
  • Schon alltägliche Fotos können ausreichen, um den Aufenthaltsort einer Person nachzuverfolgen; daher braucht es ein stärkeres Bewusstsein für Privatsphäre- und Sicherheitsfragen

Weitere Informationen zur Standortzugänglichkeit des o3-Modells

  • o3 kann auf ungefähre Standortinformationen des Nutzers zugreifen, doch das ist kein zentraler Faktor für seine präzisen Standortschlüsse
  • Selbst ohne EXIF-Metadaten analysierte es Fotos aus Regionen, die Tausende Meilen entfernt lagen, recht genau
  • Auch andere Nutzer bestätigten in Experimenten an verschiedenen Orten erneut die Analysefähigkeiten von o3

2 Kommentare

 
unsure4000 2025-04-27

Wie wäre es, wenn man umgekehrte Informationen in EXIF einfügt?

 
GN⁺ 2025-04-27
Hacker-News-Kommentar
  • Ich spiele Geoguessr auf hohem Wettbewerbsniveau und wollte dieses Modell testen

    • erstaunlich gut
    • es hat ein Foto aus meiner Gegend korrekt erkannt und erwähnt, dass es die Information genutzt hat, dass ich in der Nähe wohne
    • selbst bei alten Urlaubsfotos lag es besser als menschliche Profi-Spieler
    • darunter verschiedene Orte in Europa, Mittelamerika und den USA
    • der Weg zur Schlussfolgerung ähnelt dem eines Menschen
    • es analysiert Pflanzen, Gelände, Architektur, Straßeninfrastruktur, Schilder usw.
    • Menschen können das auch, brauchen dafür aber tausende Spiele oder intensives Lernen
    • ich nutze Hunderte von Karteikarten, um Straßenmarkierungen, Strommasten, Gebäude usw. auswendig zu lernen
    • diese Modelle verfügen über mehr Informationen, als eine Einzelperson sich merken kann
  • Ich bin sicher, dass es die EXIF-Daten nicht angesehen hat

    • wenn doch, hätte es anfangs nicht Cambria geraten
    • einmal sagte es sogar, dass es die Bilddaten überhaupt nicht sehen könne
    • das kann man natürlich niemals glauben
    • ich sollte die EXIF-Daten entfernen und es erneut laufen lassen
  • Bei allen Bildern, die ich ausprobiert habe, hat das Basismodell den Aufnahmeort des Fotos mit etwa 95 % Genauigkeit bestimmt

    • beim ursprünglichen Bild des OP hat 4o Carmel-by-the-Sea genauer geraten
    • in der CoT ist schon im ersten Schlussfolgerungsschritt der fast exakte Ort zu sehen
    • das Modell ignoriert das und probiert andere Orte aus
    • wenn das Basismodell die Hinweise nicht kennt, verhält sich o3 nicht intelligent
    • das Modell wurde RL-ed, um unabhängig von der Anzahl der Tool-Nutzungen auf die richtige Antwort zu kommen
  • Ich habe dasselbe ausprobiert, und das Ergebnis war komisch

    • hatte überhaupt keine Ahnung von den Hinweisen
    • ich sah mehrfach den Prompt, dass es nicht die Stadt sei, in der ich mich befinde
    • am lustigsten war es, als es anfing, unscharfen Asphalt zu analysieren
    • nach 6 Minuten lag o3 selbstbewusst falsch
  • o3 modelliert den Standort des Nutzers grob

    • ich glaube, das soll die neue Suchfunktion unterstützen
    • ich habe zwei weitere Beispielabfragen ausgeführt, und beide zeigten überzeugende Ergebnisse
  • Das erinnert mich daran, wie Leute überrascht sind, wenn sie bei YouTubeTV Werbung zu etwas sehen, worüber sie gerade gesprochen haben

    • tatsächlich kann modernes ML die Relevanz von Werbung gut erraten, indem es Standort, Datenpartner und letzte Suchanfragen nutzt
    • selbst wenn man das erklärt, glauben manche immer noch, dass der Computer zuhört
  • Es wird Bereiche geben, in denen die Standortschätzung unheimlich genau sein kann

    • wenn man sich aber den Schlussfolgerungsprozess ansieht, gibt es auch viele Bereiche mit geringerer Genauigkeit
    • wenn man ihm ein Foto von einem Trailerpark in Kansas zeigt, trifft das Modell wahrscheinlich nur den Bundesstaat
    • wenn die Roboterapokalypse ausbricht, ist Kalifornien wohl zuerst in Gefahr
  • Ich bin sicher, dass es die EXIF-Daten nicht angesehen hat

    • wenn es bei einer ähnlichen Aufgabe schummeln würde, würde es einen leicht falschen Ort vorschlagen
    • es wäre interessant zu sehen, wie es mit demselben Bild ohne EXIF-Daten abschneidet
  • An anderen Tagen war es nicht besonders beeindruckend

    • es konnte die bereitgestellten Bilder nicht finden
    • es wiederholte Bildzuschnitte und ähnliche Suchen
    • wenn man die Bildgenerierungsfunktion nutzt, merkt man, dass es eine große Bilddatenbank als Referenzmaterial verwendet
  • Ich bin nicht sicher, ob o4-mini bei dieser Aufgabe einfach scheitert

    • bei den bereitgestellten Fotos hat es nicht gut abgeschnitten
    • ich gab ihm ein Foto mit dem Text "Sprüngli" am Basler Hauptbahnhof, und das Modell schlug Zürich vor
    • das zweite Foto war schwieriger
    • es zeigte das Innere eines Museums in Metz, und das Modell lag von Anfang an daneben
    • insgesamt ist das Bildverständnis und Schlussfolgern immer noch cool, aber an weniger bekannten Orten funktioniert es nicht gut