OpenAI o3 schlägt einen Geoguessr-Master und ignoriert sogar gefälschte EXIF-Daten

(sampatt.com)

6 Punkte von GN⁺ 2025-04-30 | 1 Kommentare | Auf WhatsApp teilen

Das neueste o3-Modell gewann gegen einen Geoguessr-Spieler mit Rang Master I
- Der Rang Master I entspricht einem Spielniveau in den obersten etwa 1–2 %. Die absolute Spitze ist Champion mit 0,1–0,5 %
Selbst wenn gefälschte EXIF-GPS-Daten in ein Bild eingefügt wurden, konnte das Modell allein anhand visueller Hinweise den tatsächlichen Ort präzise erschließen
Es führte die Schlussfolgerung mit einem Chain-of-Thought-(COT)-Ansatz durch, bei dem Gebäude, Gelände, Straßenmarkierungen, Sprache, Schilder und weitere Details ganzheitlich analysiert werden
In einigen Runden wurde Websuche genutzt, doch erneute Tests zeigten, dass dieselbe richtige Antwort auch ohne Suche möglich war
Die durchschnittliche Schlussfolgerungszeit von o3 ist länger als die eines Menschen, die Präzision ist jedoch sogar überlegen

AI vs. Mensch: Der Beginn des Geoguessr-Duells

Der Autor ist ein Geoguessr-Spieler mit Rang Master I und trat in einem Format, das dem echten Spiel ähnelt, in 5 Runden gegen die AI an
Pro Runde wurden nur 2 Street-View-Bilder bereitgestellt, aus denen der Ort ohne Metadaten erschlossen werden musste
Die Wertung entsprach dem normalen Geoguessr-System: maximal 5.000 Punkte pro Runde und insgesamt 25.000 Punkte

Zusammenfassung der Ergebnisse pro Runde

Runde 1 (Bulgarien): Der Mensch gewann knapp, da er den etwas näheren Ort traf, doch der Punktunterschied lag nur bei etwa 100 Punkten
Runde 2 (Österreich): o3 suchte nach der Domain-Adresse eines Taxis, identifizierte so den tatsächlichen Stadtnamen und erzielte mit einer nahezu perfekten Ortsbestimmung fast 5.000 Punkte
Runde 3 (Irland): Beide zeigten eine starke Analyse, und o3 erschloss anhand von Straßenmarkierungen und der Kalksteinlandschaft präzise die Region Burren und gewann knapp
Runde 4 (Kolumbien): o3 schloss aus Straßenmarkierungen, Kennzeichen, Ladenschildern und dem Gelände genauer als der Mensch und zeigte auch ohne Websuche eine starke Leistung
Runde 5 (Slowakei): Der Mensch gewann knapp mit einer etwas näheren Ortsbestimmung, konnte den Rückstand in der Gesamtwertung jedoch nicht mehr aufholen

So identifizierte o3 alle 5 Länder korrekt und lag in zwei Runden um mehrere Hundert Kilometer näher als der Mensch, was eine hohe Präzision zeigte.

EXIF-Manipulationstest: Die AI ließ sich nicht täuschen

Für den Test wurden Bilder mit EXIF-Daten verwendet, die GPS-Koordinaten ohne Bezug zum tatsächlichen Ort enthielten. o3 erkannte, dass diese Angaben nicht mit dem realen Bildinhalt übereinstimmten, und ignorierte sie
Selbst wenn die EXIF-Informationen als Text bereitgestellt wurden, erschloss das Modell anhand der Umgebung im Foto präzise einen völlig anderen Ort
Das belegt, dass die AI nicht einfach auf Metadaten angewiesen ist, sondern den Bildinhalt tiefgehend analysiert

Unterschiede zwischen Mensch und AI

o3 benötigte pro Runde im Schnitt 2 bis 6 Minuten für die Schlussfolgerung, während der menschliche Spieler die meisten Tipps innerhalb von 1 bis 2 Minuten abgab
Die AI verbringt mitunter Zeit mit weniger wichtigen Elementen wie Werbetafeln, während Menschen wichtige Hinweise schnell erkennen und priorisieren
Dennoch zeigt o3 eine hohe Genauigkeit, indem es Straßenschilder, Kennzeichen, Baustile, Gelände und Vegetation als vielfältige visuelle Informationen präzise kombiniert

Fazit

o3 findet die richtige Antwort nicht durch einen Trick wie die bloße Nutzung von EXIF oder Suche, sondern auf Basis echter visueller Analysefähigkeiten
Es zeigt eine Spielstärke nahe oder auf dem Niveau von Geoguessr Master I
Menschen haben weiterhin Vorteile bei Geschwindigkeit und Intuition, doch bei der Genauigkeit ist AI bereits auf bedrohlich hohem Niveau
Das ist mehr als nur eine technische Demo und zeigt den aktuellen Stand leistungsfähiger visueller AI mit realem Anwendungspotenzial

1 Kommentare

GN⁺ 2025-04-30

Hacker-News-Kommentare

Auf dem Fahrzeug klebt ein Sticker mit „www.taxilinder.at“. Per Websuche lässt sich herausfinden, dass die Taxi Linder GmbH in Dornbirn, Österreich, sitzt
- Die Websuche zu benutzen ist unfair. In GeoGuessr-Runden innerhalb einer Stadt könnte man durch das Nachschlagen einiger Geschäfte perfekte Punkte erzielen, aber das ist nicht der Sinn des Spiels
Der Autor freut sich, dass die Leute dieses Thema interessant finden
- Er empfiehlt allen, GeoGuessr auszuprobieren. Der Autor liebt dieses Spiel
- Viele meinen, dass es unfair sei und das Ergebnis ungültig mache, dass das o3-Modell in 2 von 5 Runden die Websuche verwendet hat
- Um das zu überprüfen, hat er die beiden Runden, in denen gesucht wurde, erneut durchgeführt und die Ergebnisse aktualisiert
- Fazit: Die Ergebnisse waren fast identisch. Die GPS-Koordinaten sind im Beitrag zu sehen
- Er liefert ein Beispiel dafür, wie das Modell in der Österreich-Runde anhand der Berge im Hintergrund die Stadt identifiziert hat
- Es hatte bereits viele Informationen und brauchte die Suche nicht
- Es wird Fälle geben, in denen die Suche nützlich ist. In diesem Fall war sie jedoch nicht relevant
Ist auf Master-Niveau in GeoGuessr. Dieses Niveau bedeutet definitiv, dass man wissen muss, was man tut, ist aber nicht so hoch, wie es im Titel klingt
- Master liegt bei etwa 800–1200 ELO, Profi eher bei 1900–2000. In 95 % der Runden erkennt man das Land sofort, aber in Russland oder Brasilien kann man den Ort ohne Informationen nicht bestimmen. Ein Scripter kann mich schlagen
Ich verstehe, dass o3 mit multimodalen Daten einschließlich Bilddaten trainiert wurde. Es ist nicht unvernünftig anzunehmen, dass die Trainingsdaten Bilder mit exakten Orten und Merkmalen enthalten
- GeoGuessr nutzt Google Maps, und Google Maps kauft die meisten Bilder von Drittanbietern. Es wäre sehr überraschend, wenn dieser Drittanbieter nicht an alle großen KI-Unternehmen verkaufen würde
Abgesehen von GeoGuessr hoffe ich, dass diese Technik eines Tages dabei hilft, Kinder zu retten. Zum Beispiel könnte sie dem ECAP des FBI helfen
Kommentare aus dem vorherigen Beitrag:
- Es wird Bereiche geben, in denen Ortsschätzungen beängstigend präzise sein können. Zum Beispiel wie in dem Artikel, in dem als Ausweichschätzung das exakte Dorf getroffen wurde
- Wenn man sich jedoch den Gedankengang ansieht, wird es viele Bereiche geben, in denen die Genauigkeit abfällt. Zeigt man dem Modell ein Foto eines Trailerparks in Kansas, wird es wahrscheinlich nur den Bundesstaat treffen
- Dieser Beitrag hat zwar keine große Stichprobe, spiegelt aber wider, was man davon erwarten würde, wie solche Modelle funktionieren. Selbst bei Fotos mit wenig visueller Information war es zuverlässig dabei, das Land zu treffen
- Im vorherigen Artikel wurde nur ein einzelnes Foto getestet; beim zweiten Versuch wurde das exakte Dorf getroffen, und der Autor beschrieb das als „beängstigend präzise“. Das ist eine Frage der Bewertung
- o3 mit aktivierter Websuche scheint GeoGuessr auf hohem Niveau spielen zu können. Jetzt möchte ich einen o3-GeoGuessr-Bot sehen, der mehrere Matches spielt, damit man sein ELO prüfen kann
Ich wollte diese Woche ein wenig mit o3 herumspielen, und interessant war, dass es stärker auf Pattern Matching gesetzt hat. Zum Beispiel kann es Fotos aus Europa und den USA leicht einordnen
- Bei Orten, zu denen es online nicht viele Fotos gibt, versucht es jedoch Pattern Matching mit seiner eigenen Datenbank/dem Internet, statt tiefer zu graben
- Ein Beispiel wäre ein populärer Trail auf einer Insel, die seit 2020 gewachsen ist. Zunächst erwähnte es die Felsen der Insel und die Vegetation Brasiliens, versuchte dann aber, einen Ort in Rio de Janeiro zu finden
- Ein weiteres Beispiel ist ein Strand, der bei Ebbe für natürliche Pools berühmt ist. Als das Foto bei Flut aufgenommen wurde, erkannte es Vegetation und Bundesstaat korrekt, versuchte dann aber erneut, einen populäreren Ort zu finden
Überraschend. Ich bin KI gegenüber positiv eingestellt, aber hier dachte ich, dass der Mensch gewinnen würde. Ich erwarte ein Verschieben des Ziels nach dem Motto „Das ist kein echtes Schlussfolgern“
Ich persönlich halte das für eine der weniger beeindruckenden LLM-Anwendungen. Es kennt bereits alle Pflanzen, Straßenschilder usw. Ich kann mir vorstellen, dass auch ein traditionelles neuronales Netz hier gut abschneiden würde
Das wird ein Game Changer für Aufgaben im OSINT-Stil (Bellingcat/Trace an object). Ich frage mich, ob das bereits geschieht
- Es könnten Wettbewerbe im GeoGuessr-Stil entstehen, und das könnte zumindest als Copilot einen großen Beitrag zur Massenidentifizierung leisten