- Niantic entwickelt ein Large Geospatial Model (LGM), das groß angelegtes Machine Learning nutzt, um Szenen zu verstehen und mit Millionen anderer Szenen weltweit zu verknüpfen
- Menschen können sich dank ihres räumlichen Verständnisses Strukturen aus verschiedenen Blickwinkeln vorstellen, für Maschinen ist das jedoch eine schwierige Aufgabe
- Niantics Visual Positioning System (VPS) wurde mit mehr als 5 Milliarden neuronalen Netzwerken trainiert und kann an über 1 Million Standorten eingesetzt werden
- Was ist ein Large Geospatial Model?
- Ein LGM hilft Computern, die physische Welt wahrzunehmen, zu verstehen und sich in ihr zu orientieren
- Ähnlich wie ein LLM wird ein LGM mit enormen Mengen roher Daten aufgebaut, was ein ortsbasiertes Verständnis von Raum, Struktur und physischer Interaktion ermöglicht
- Im Unterschied zu 3D-Visionsmodellen ist ein Geospatial Model in konkreten geografischen Positionen verankert und auf präzisen Maßstabseinheiten messbar
- Stand der Arbeiten bei Niantic
- In den vergangenen fünf Jahren hat Niantic VPS aufgebaut, damit Nutzer digitale Inhalte präzise in der physischen Umgebung platzieren können
- VPS wird anhand von Nutzerscans aufgebaut, also mit aus Fußgängerperspektive gesammelten Daten, einschließlich Orten, die mit dem Auto nicht erreichbar sind
- Derzeit gibt es weltweit 10 Millionen gescannte Standorte, und jede Woche kommen 1 Million neue Scans hinzu
- Von lokalen Systemen zu gemeinsamem Verständnis
- Die heutigen Neural Maps sind bereits nutzbare Geospatial Models, doch LGM verfolgt eine Vision, die über voneinander getrennte lokale Karten hinausgeht
- LGM ermöglicht Datenaustausch zwischen lokalen Modellen und kann etwa die Rückseite eines Gebäudes von einem bestimmten Standort aus erschließen
- Damit entsteht ein zentrales Weltverständnis auf Basis geografischer und visueller Daten
- Menschenähnliches Verständnis
- Menschen besitzen die Fähigkeit, Gesehenes auch aus anderen Blickwinkeln wiederzuerkennen
- Dieses Verständnis lässt sich realistisch nur durch groß angelegtes Machine Learning erreichen, und genau darauf arbeitet Niantic hin
- Weiterentwicklung zu komplementären Foundation Models
- LGM kann über reine Positionsbestimmung hinaus genutzt werden und neue Methoden zur Darstellung, Bearbeitung und Generierung von Szenen ermöglichen
- Verschiedene Arten von Foundation Models ergänzen sich gegenseitig, sodass solche Systeme die physische Welt wahrnehmen, verstehen und in ihr handeln können
- Niantic will bei der Entwicklung groß angelegter Geospatial Models eine führende Rolle übernehmen und Nutzern neue Erfahrungen bieten
1 Kommentare
Hacker-News-Kommentare
Als Pokémon-GO-Spieler fühlt es sich so an, als würde ich durch das Spiel Trainingsdaten liefern und sie würden von meiner Arbeit profitieren. Ich habe aufgehört, PokéStops zu scannen, weil der Aufwand im Verhältnis zur Belohnung zu groß ist. Wenn sie das Modell und die Gewichte offenlegen würden, hätte ich das Gefühl, zu einem größeren Gemeinwohl beigetragen zu haben.
Ich habe die AR-Technik von Pokémon GO kaum genutzt, weil sie langsam war, daher überrascht es mich, dass sie sich inzwischen so weit entwickelt hat, dass sie für das Training eines LGM verwendet werden kann. Auch wirtschaftlich passt es: Die Spieler bekommen ein kostenloses Spiel, Niantic erzielt Einnahmen, und neue Technologie wird der Welt bereitgestellt.
Bei MyFitnessPal werden beim Scannen von Barcodes Hintergrundgeräusche der Nutzer gesammelt und als Trainingsdaten verwendet. Dadurch kann man Informationen über durchschnittliche Vorratskammern, Kühlschränke und Supermarktgänge gewinnen.
Dieser Blogbeitrag und die Reaktion auf HN sind verwirrend. Tatsächlich haben sie das Modell nicht trainiert, sondern den Plan dazu angekündigt. Sie sagen zwar, sie hätten 50 Millionen neuronale Netze trainiert, aber das ist nur ein Teil dessen, was sie ohnehin schon tun. Es wirkt wie ein Visionsdokument, um Niantic als AI-Unternehmen zu positionieren.
Es gibt die philosophische Auffassung, dass Geodaten ein öffentliches Gut sein sollten. Crowd-sourced Daten stammen von gewöhnlichen Menschen, daher sollten Wissen und Fakten öffentliches Eigentum sein.
Ich glaube nicht, dass die Echtzeit-Erzeugung von 3D-Szenen die Karte der Zukunft ist. Gebäude, Straßen, Schilder und Ähnliches sind sehr statisch, und für die meisten Anwendungsfälle ändert sich nicht viel. Es wäre nützlicher, ein präzises Modell aus der Cloud abzurufen.
Bei einem Treffen von Google/Niantic dürfte die Idee aufgekommen sein, per Crowd-Sourcing eine neue Generation von 3D-Modellen aufzubauen. Durch den Kauf der Pokémon-Rechte haben sie das umgesetzt.
Brian Maclendon (Niantic) hat in seinem Bellingfest-Vortrag interessante Details dazu vorgestellt.
Es ist schwer zu verstehen, was LGM eigentlich ist. Es scheint eher um die Verbesserung eines Vision-Modells zu gehen, das die Rückseiten von Gebäuden vorhersagt, als um Geodaten. Die Trainingsdaten stammen aus Bildern, die beim Fangen von Pokémon erzeugt wurden.
Es gibt die Meinung, dass die CIA ohnehin bereits Zugriff darauf haben dürfte. Datenschutzbedenken wurden schon vor Jahren geäußert.