- Das neueste o3-Modell gewann gegen einen Geoguessr-Spieler mit Rang Master I
- Der Rang Master I entspricht einem Spielniveau in den obersten etwa 1–2 %. Die absolute Spitze ist Champion mit 0,1–0,5 %
- Selbst wenn gefälschte EXIF-GPS-Daten in ein Bild eingefügt wurden, konnte das Modell allein anhand visueller Hinweise den tatsächlichen Ort präzise erschließen
- Es führte die Schlussfolgerung mit einem Chain-of-Thought-(COT)-Ansatz durch, bei dem Gebäude, Gelände, Straßenmarkierungen, Sprache, Schilder und weitere Details ganzheitlich analysiert werden
- In einigen Runden wurde Websuche genutzt, doch erneute Tests zeigten, dass dieselbe richtige Antwort auch ohne Suche möglich war
- Die durchschnittliche Schlussfolgerungszeit von o3 ist länger als die eines Menschen, die Präzision ist jedoch sogar überlegen
AI vs. Mensch: Der Beginn des Geoguessr-Duells
- Der Autor ist ein Geoguessr-Spieler mit Rang Master I und trat in einem Format, das dem echten Spiel ähnelt, in 5 Runden gegen die AI an
- Pro Runde wurden nur 2 Street-View-Bilder bereitgestellt, aus denen der Ort ohne Metadaten erschlossen werden musste
- Die Wertung entsprach dem normalen Geoguessr-System: maximal 5.000 Punkte pro Runde und insgesamt 25.000 Punkte
Zusammenfassung der Ergebnisse pro Runde
- Runde 1 (Bulgarien): Der Mensch gewann knapp, da er den etwas näheren Ort traf, doch der Punktunterschied lag nur bei etwa 100 Punkten
- Runde 2 (Österreich): o3 suchte nach der Domain-Adresse eines Taxis, identifizierte so den tatsächlichen Stadtnamen und erzielte mit einer nahezu perfekten Ortsbestimmung fast 5.000 Punkte
- Runde 3 (Irland): Beide zeigten eine starke Analyse, und o3 erschloss anhand von Straßenmarkierungen und der Kalksteinlandschaft präzise die Region Burren und gewann knapp
- Runde 4 (Kolumbien): o3 schloss aus Straßenmarkierungen, Kennzeichen, Ladenschildern und dem Gelände genauer als der Mensch und zeigte auch ohne Websuche eine starke Leistung
- Runde 5 (Slowakei): Der Mensch gewann knapp mit einer etwas näheren Ortsbestimmung, konnte den Rückstand in der Gesamtwertung jedoch nicht mehr aufholen
So identifizierte o3 alle 5 Länder korrekt und lag in zwei Runden um mehrere Hundert Kilometer näher als der Mensch, was eine hohe Präzision zeigte.
EXIF-Manipulationstest: Die AI ließ sich nicht täuschen
- Für den Test wurden Bilder mit EXIF-Daten verwendet, die GPS-Koordinaten ohne Bezug zum tatsächlichen Ort enthielten. o3 erkannte, dass diese Angaben nicht mit dem realen Bildinhalt übereinstimmten, und ignorierte sie
- Selbst wenn die EXIF-Informationen als Text bereitgestellt wurden, erschloss das Modell anhand der Umgebung im Foto präzise einen völlig anderen Ort
- Das belegt, dass die AI nicht einfach auf Metadaten angewiesen ist, sondern den Bildinhalt tiefgehend analysiert
Unterschiede zwischen Mensch und AI
- o3 benötigte pro Runde im Schnitt 2 bis 6 Minuten für die Schlussfolgerung, während der menschliche Spieler die meisten Tipps innerhalb von 1 bis 2 Minuten abgab
- Die AI verbringt mitunter Zeit mit weniger wichtigen Elementen wie Werbetafeln, während Menschen wichtige Hinweise schnell erkennen und priorisieren
- Dennoch zeigt o3 eine hohe Genauigkeit, indem es Straßenschilder, Kennzeichen, Baustile, Gelände und Vegetation als vielfältige visuelle Informationen präzise kombiniert
Fazit
- o3 findet die richtige Antwort nicht durch einen Trick wie die bloße Nutzung von EXIF oder Suche, sondern auf Basis echter visueller Analysefähigkeiten
- Es zeigt eine Spielstärke nahe oder auf dem Niveau von Geoguessr Master I
- Menschen haben weiterhin Vorteile bei Geschwindigkeit und Intuition, doch bei der Genauigkeit ist AI bereits auf bedrohlich hohem Niveau
- Das ist mehr als nur eine technische Demo und zeigt den aktuellen Stand leistungsfähiger visueller AI mit realem Anwendungspotenzial
1 Kommentare
Hacker-News-Kommentare
Auf dem Fahrzeug klebt ein Sticker mit „www.taxilinder.at“. Per Websuche lässt sich herausfinden, dass die Taxi Linder GmbH in Dornbirn, Österreich, sitzt
Der Autor freut sich, dass die Leute dieses Thema interessant finden
Ist auf Master-Niveau in GeoGuessr. Dieses Niveau bedeutet definitiv, dass man wissen muss, was man tut, ist aber nicht so hoch, wie es im Titel klingt
Ich verstehe, dass o3 mit multimodalen Daten einschließlich Bilddaten trainiert wurde. Es ist nicht unvernünftig anzunehmen, dass die Trainingsdaten Bilder mit exakten Orten und Merkmalen enthalten
Abgesehen von GeoGuessr hoffe ich, dass diese Technik eines Tages dabei hilft, Kinder zu retten. Zum Beispiel könnte sie dem ECAP des FBI helfen
Kommentare aus dem vorherigen Beitrag:
Ich wollte diese Woche ein wenig mit o3 herumspielen, und interessant war, dass es stärker auf Pattern Matching gesetzt hat. Zum Beispiel kann es Fotos aus Europa und den USA leicht einordnen
Überraschend. Ich bin KI gegenüber positiv eingestellt, aber hier dachte ich, dass der Mensch gewinnen würde. Ich erwarte ein Verschieben des Ziels nach dem Motto „Das ist kein echtes Schlussfolgern“
Ich persönlich halte das für eine der weniger beeindruckenden LLM-Anwendungen. Es kennt bereits alle Pflanzen, Straßenschilder usw. Ich kann mir vorstellen, dass auch ein traditionelles neuronales Netz hier gut abschneiden würde
Das wird ein Game Changer für Aufgaben im OSINT-Stil (Bellingcat/Trace an object). Ich frage mich, ob das bereits geschieht