- Ein generatives Weltmodell für groß angelegte Simulationen des autonomen Fahrens, das realitätsnahe Umgebungen in Echtzeit nachbildet
- Auf Basis von Genie 3 aufgebaut und in der Lage, seltene oder extreme Situationen (Tornados, Überschwemmungen, auftauchende Tiere usw.) realistisch nachzustellen
- Simulationen lassen sich über Fahrzeugsteuerung, Szenenkomposition und Sprachsteuerung fein abstimmen; außerdem werden Kamera- und LiDAR-Daten gleichzeitig erzeugt
- Normale Video- oder Dashcam-Aufnahmen lassen sich in Multisensor-Simulationen umwandeln, die reale Fahrszenen originalgetreu nachbilden
- Das Modell ist ein zentrales Werkzeug für Sicherheitsvalidierung und die Erweiterung des Dienstes und ermöglicht die Vorbereitung auf Situationen, die in der Realität nahezu unmöglich sind
Überblick über das Waymo-Weltmodell
- Der Waymo Driver ist in großen US-Städten im vollautonomen Betrieb rund 200 Millionen Meilen gefahren und zusätzlich Milliarden Meilen in virtuellen Umgebungen
- Das System ist darauf ausgelegt, komplexe Situationen vorab zu erlernen, denen man auf realen Straßen nur schwer begegnet
- Das Waymo-Weltmodell (Waymo World Model) ist ein hyperrealistisches Simulationsgenerierungssystem für diese virtuellen Fahrten
- Es ist eine von drei tragenden Säulen in Waymos AI-Ökosystem und dient als Grundlage zum Nachweis der Sicherheit
Architektur und Funktionen auf Basis von Genie 3
- Es basiert auf Google DeepMinds Genie 3 und wurde für Fahrumgebungen spezialisiert angepasst
- Genie 3 ist ein allgemeines Weltmodell zur Erzeugung realistischer und interaktiver 3D-Umgebungen
- Mithilfe von Genies umfassendem Weltwissen lassen sich sogar Ereignisse simulieren, die in der Realität fast unmöglich sind, etwa die Begegnung mit einem Tornado oder einem Elefanten
- Die Simulation lässt sich über Sprach-Prompts, Fahrinputs und Szenenanordnung präzise steuern
- Unterstützt Multisensor-Ausgabe, die sowohl Kamera- als auch LiDAR-Daten erzeugt
Multimodales Weltwissen
- Herkömmliche Simulatoren für autonomes Fahren werden nur mit selbst erhobenen Daten trainiert, das Waymo-Modell nutzt dagegen die vortrainierten umfangreichen Videodaten von Genie 3
- Wissen aus 2D-Videos wird auf 3D-Ausgaben für Waymos LiDAR-System übertragen
- Kameras sind stark in visuellen Details, LiDAR bei präzisen Tiefeninformationen
- Es können verschiedenste Szenen erzeugt werden, vom alltäglichen Fahren bis zu seltenen Long-Tail-Situationen
-
Simulation extremer Wetterlagen und Naturkatastrophen
- Erzeugt Szenen wie eine Fahrt über die verschneite Golden Gate Bridge, eine Begegnung mit einem Tornado, überflutete Vororte, verschneite Straßen in einer tropischen Stadt oder eine Flucht durch Feuer
-
Seltene und sicherheitskritische Ereignisse
- Reproduziert sicherheitsrelevante Szenarien wie aggressive Fahrer, Fahrzeuge, die gegen Äste stoßen, Fahrzeuge mit instabiler Ladung oder entgegenkommende Lkw in falscher Fahrtrichtung
-
Long-Tail-Objekte und ungewöhnliche Situationen
- Bietet Simulationen von Begegnungen mit ungewöhnlichen Objekten wie Elefanten, Texas-Longhorns, Löwen, Fußgängern im Dinosaurierkostüm oder riesigen Windrädern
Funktionen zur Simulationssteuerung
- Anpassbar auf drei Arten: Steuerung des Fahrverhaltens, Steuerung der Szenenkomposition und Sprachsteuerung
-
Steuerung des Fahrverhaltens
- Realisiert einen interaktiven Simulator, der auf bestimmte Fahrinputs reagiert
- Beispiel: Testen, was passiert wäre, wenn in einer bestimmten Situation offensiver gefahren worden wäre
- Bewahrt visuelle Konsistenz und Realismus besser als der bisherige 3DGS-Ansatz (3D Gaussian Splats)
-
Steuerung der Szenenkomposition
- Straßenstruktur, Signalzustände und das Verhalten umliegender Fahrzeuge lassen sich frei verändern
- Unterstützt die Erstellung benutzerdefinierter Szenarien und die Modifikation von Straßenumgebungen
-
Sprachsteuerung
- Tageszeit, Wetter und die gesamte Szene lassen sich per Textbefehl ändern
- Beispiel: Wechsel zwischen Morgendämmerung, Morgen, Mittag, Abend und Nacht
- Änderung von Wetterbedingungen wie bewölkt, neblig, Regen, Schnee oder klar
Umwandlung video-basierter Simulationen
- Nimmt normale Kamera- oder Dashcam-Videos als Eingabe und wandelt sie in eine Multisensor-Simulation aus der Perspektive des Waymo Driver um
- Da reale Videos die Grundlage bilden, sind Realismus und Genauigkeit hoch
- Beispiele: umgewandelte Videos realer Orte wie Norwegen, der Arches National Park in Utah und Death Valley in Kalifornien
Skalierbare Inferenz (Scalable Inference)
- Lange Szenensimulationen sind rechenintensiv, doch eine effizientere Modellvariante reduziert den Rechenaufwand deutlich bei gleichbleibend hoher Qualität
- Unterstützt lang andauernde Fahrszenarien wie das Durchfahren enger Spuren, komplexe Kreuzungen oder Bergauffahrten
- Beispiele in 4-facher Wiedergabegeschwindigkeit: Umfahren eines Autobahnengpasses, Fahren in dicht bebauten Wohngebieten, Ausweichen vor einem Motorrad bergauf oder ein U-Turn eines SUV
Sicherheit und Skalierbarkeit
- Situationen, die in der Realität nahezu unmöglich sind, können virtuell nachgebildet werden, um sich im Voraus darauf vorzubereiten
- Stärkt die Sicherheitsstandards des Waymo Driver und schafft die Grundlage für die Ausweitung des Dienstes auf neue Regionen und Umgebungen
- An dem Projekt waren zahlreiche Forschende von Waymo und Google DeepMind beteiligt
1 Kommentare
Hacker-News-Kommentare
Jetzt verstehe ich, warum sich DeepMind plötzlich auf world models konzentriert.
Ich hatte Waymo nie als „Roboter“ wie die Humanoiden von Boston Dynamics betrachtet, aber im Grunde ist es genau das.
Google/Alphabet hat im AI-Bereich eine erstaunlich vollständige vertikale Integration — eigene Stromerzeugung, Chips, Rechenzentren, Suche·Gmail·YouTube·Gemini·Workspace·Wallet, Milliarden Android- und Chromebook-Nutzer, Werbenetzwerk, Browser, Waymo, Zusammenarbeit mit Boston Dynamics, Kernfusionsforschung bis hin zur Medikamentenentwicklung.
In dieser Größenordnung sind Chatbots wie ChatGPT oder Grok kaum vergleichbar.
Früher dachte ich, die Forschung zu autonomen Fahrzeugen sei für Street View gedacht, aber jetzt sieht es nach einem viel größeren Plan aus.
Das zugehörige Paper gibt es hier.
Man hätte die Straßensituation in Echtzeit aus den Fahrzeugen heraus aktualisieren können, aber inzwischen wirken sie deutlich zurückgefallen.
Ein passendes Video gibt es hier.
Es heißt, das Genie-Modell könne seltene Ereignisse (Tornados, Begegnungen mit Elefanten usw.) simulieren, aber ich frage mich, ob die generierten Ergebnisse wirklich realistisch sind.
Wenn das Modell zum Beispiel eine Straße vorhersagt, die mit 5-mm-Stahlkugeln bedeckt ist, wie prüft man dann, ob das überhaupt eine sinnvolle Annahme ist?
Es muss nicht perfekt sein; durch Wiederholung und Validierung kann ein positiver Verbesserungszyklus entstehen.
Auch Extremfälle wie eine weiße Kuh im Schneesturm lassen sich so in Simulationen erfassen.
Perfekte Vorhersagen sind unmöglich; es ist ein Prozess schrittweiser Verbesserung hin zu bestmöglichen wissensbasierten Entscheidungen.
Dass das Waymo World Model sogar gewöhnliche Kameravideos in eine multimodale Simulation umwandeln kann, bedeutet, dass Waymo theoretisch auch nur mit Kameras fahren könnte.
Tesla hat nie eine LiDAR-Phase durchlaufen, deshalb ist es schwer, solche Ergebnisse zu erzielen.
Ähnlich wie die binokulare Tiefenwahrnehmung beim Menschen ergänzt es die Tiefenerkennung.
Ersteres ist fürs Training, Letzteres für reale Fahrzeuge.
Deshalb hat ein Ansatz, der nur Kameras nutzt, Grenzen.
Die Technik ist beeindruckend, aber ich finde, eine bessere Bahninfrastruktur ist dringender.
Schwarzfahren, Gewalt und unhygienische Zustände vertreiben die Fahrgäste.
Vor dieser Realität die Augen zu verschließen und nur nach ÖPNV zu rufen, wirkt hohl.
Wenn ein Dienst wie Waymo die versprochene Qualität tatsächlich liefert, bekommt er deshalb umso mehr Aufmerksamkeit.
Persönlich halte ich Bike-Sharing-Systeme für die einzige Alternative, die ihre Versprechen tatsächlich einlöst.
Lärm, Bettelei und Drogenprobleme machen den ÖPNV zu etwas, das Menschen meiden.
Angesichts der US-Infrastruktur ist eine groß angelegte Bahnreform unrealistisch.
Selbst in Japan mit seinem ausgebauten Schienennetz unterscheidet sich die Autobesitzquote nicht dramatisch von der in den USA.
Der Kern dieser Ankündigung ist die Technik zur Erzeugung von 3D-LiDAR-Daten aus 2D-Bildern.
Der Zugang von DeepMind und Google zu Infrastruktur ist Waymos überwältigender Wettbewerbsvorteil.
Simulationen von Überschwemmungen, Tornados und Waldbränden sind beeindruckend, aber es ist fraglich, dass Waymo bei einer Stromausfallsituation kollektiv stehen blieb, obwohl das ein viel häufigeres Szenario ist.
Wenn solche Basisszenarien nicht verarbeitet werden können, ist der Nutzen der Simulation begrenzt.
Das heißt: Simulation bleibt wertvoll, kann aber nicht jedes Versagen verhindern.
Passendes Video
Es wirkt riskant, dass Waymo im Training virtuelle kontrafaktische Situationen nutzt.
Da es mehr Videos geben dürfte, in denen gut reagiert wurde, als echte tragische Fälle, könnte das am Ende übermäßiges Selbstvertrauen antrainieren.
Das Ziel ist, dass Waymo auch bei Tornados oder Elefanten nicht einfach stehen bleibt, sondern reagiert.
Wenn man nur vollständige Sicherheit anstrebt, bewegt sich das Auto am Ende gar nicht mehr.
Der Ansatz „langsamer ist automatisch sicherer“ stimmt so nicht.
Ein world model könnte in echten Sicherheitssituationen wegen verzerrter Daten gefährlich sein.
Wenn es mit Daten trainiert wird, in denen es fast keine Fehlschläge gibt, lassen sich reale Unfallsituationen womöglich nicht reproduzieren.
Als Beispiel zeigt dieses Video einen Fall der Kollisionsvermeidung.
Allerdings bleibt unklar, was genau als „hinreichend realistisch“ gelten soll.
Da auch Menschen nicht zu 100 % vertrauenswürdig sind, dürfte die gesellschaftliche Akzeptanz steigen, wenn ein zehnmal sichereres Niveau mit verifizierbaren codebasierten Sicherheitsmechanismen kombiniert wird.
DeepMinds Project Genie scheint die technische Grundlage von Waymo zu sein.
Verwandter Beitrag: Genie 3: A new frontier for world models
Hacker-News-Diskussion: Genie 3, Project Genie
Das erinnert mich an das Bell-Curve-Meme des Trainings für autonomes Fahren.
Man beginnt mit physikbasierten Simulatoren, sammelt reale Daten und kehrt dann wieder zu Deep-Learning-Simulatoren mit physikalischen Informationen zurück.
Das wirkt wie eine so natürliche Entwicklungsstufe, dass man diesem Muster fast einen Namen geben sollte.