6 Punkte von GN⁺ 2026-02-07 | 1 Kommentare | Auf WhatsApp teilen
  • Ein generatives Weltmodell für groß angelegte Simulationen des autonomen Fahrens, das realitätsnahe Umgebungen in Echtzeit nachbildet
  • Auf Basis von Genie 3 aufgebaut und in der Lage, seltene oder extreme Situationen (Tornados, Überschwemmungen, auftauchende Tiere usw.) realistisch nachzustellen
  • Simulationen lassen sich über Fahrzeugsteuerung, Szenenkomposition und Sprachsteuerung fein abstimmen; außerdem werden Kamera- und LiDAR-Daten gleichzeitig erzeugt
  • Normale Video- oder Dashcam-Aufnahmen lassen sich in Multisensor-Simulationen umwandeln, die reale Fahrszenen originalgetreu nachbilden
  • Das Modell ist ein zentrales Werkzeug für Sicherheitsvalidierung und die Erweiterung des Dienstes und ermöglicht die Vorbereitung auf Situationen, die in der Realität nahezu unmöglich sind

Überblick über das Waymo-Weltmodell

  • Der Waymo Driver ist in großen US-Städten im vollautonomen Betrieb rund 200 Millionen Meilen gefahren und zusätzlich Milliarden Meilen in virtuellen Umgebungen
    • Das System ist darauf ausgelegt, komplexe Situationen vorab zu erlernen, denen man auf realen Straßen nur schwer begegnet
  • Das Waymo-Weltmodell (Waymo World Model) ist ein hyperrealistisches Simulationsgenerierungssystem für diese virtuellen Fahrten
    • Es ist eine von drei tragenden Säulen in Waymos AI-Ökosystem und dient als Grundlage zum Nachweis der Sicherheit

Architektur und Funktionen auf Basis von Genie 3

  • Es basiert auf Google DeepMinds Genie 3 und wurde für Fahrumgebungen spezialisiert angepasst
    • Genie 3 ist ein allgemeines Weltmodell zur Erzeugung realistischer und interaktiver 3D-Umgebungen
  • Mithilfe von Genies umfassendem Weltwissen lassen sich sogar Ereignisse simulieren, die in der Realität fast unmöglich sind, etwa die Begegnung mit einem Tornado oder einem Elefanten
  • Die Simulation lässt sich über Sprach-Prompts, Fahrinputs und Szenenanordnung präzise steuern
  • Unterstützt Multisensor-Ausgabe, die sowohl Kamera- als auch LiDAR-Daten erzeugt

Multimodales Weltwissen

  • Herkömmliche Simulatoren für autonomes Fahren werden nur mit selbst erhobenen Daten trainiert, das Waymo-Modell nutzt dagegen die vortrainierten umfangreichen Videodaten von Genie 3
  • Wissen aus 2D-Videos wird auf 3D-Ausgaben für Waymos LiDAR-System übertragen
    • Kameras sind stark in visuellen Details, LiDAR bei präzisen Tiefeninformationen
  • Es können verschiedenste Szenen erzeugt werden, vom alltäglichen Fahren bis zu seltenen Long-Tail-Situationen
  • Simulation extremer Wetterlagen und Naturkatastrophen

    • Erzeugt Szenen wie eine Fahrt über die verschneite Golden Gate Bridge, eine Begegnung mit einem Tornado, überflutete Vororte, verschneite Straßen in einer tropischen Stadt oder eine Flucht durch Feuer
  • Seltene und sicherheitskritische Ereignisse

    • Reproduziert sicherheitsrelevante Szenarien wie aggressive Fahrer, Fahrzeuge, die gegen Äste stoßen, Fahrzeuge mit instabiler Ladung oder entgegenkommende Lkw in falscher Fahrtrichtung
  • Long-Tail-Objekte und ungewöhnliche Situationen

    • Bietet Simulationen von Begegnungen mit ungewöhnlichen Objekten wie Elefanten, Texas-Longhorns, Löwen, Fußgängern im Dinosaurierkostüm oder riesigen Windrädern

Funktionen zur Simulationssteuerung

  • Anpassbar auf drei Arten: Steuerung des Fahrverhaltens, Steuerung der Szenenkomposition und Sprachsteuerung
  • Steuerung des Fahrverhaltens

    • Realisiert einen interaktiven Simulator, der auf bestimmte Fahrinputs reagiert
      • Beispiel: Testen, was passiert wäre, wenn in einer bestimmten Situation offensiver gefahren worden wäre
    • Bewahrt visuelle Konsistenz und Realismus besser als der bisherige 3DGS-Ansatz (3D Gaussian Splats)
  • Steuerung der Szenenkomposition

    • Straßenstruktur, Signalzustände und das Verhalten umliegender Fahrzeuge lassen sich frei verändern
      • Unterstützt die Erstellung benutzerdefinierter Szenarien und die Modifikation von Straßenumgebungen
  • Sprachsteuerung

    • Tageszeit, Wetter und die gesamte Szene lassen sich per Textbefehl ändern
      • Beispiel: Wechsel zwischen Morgendämmerung, Morgen, Mittag, Abend und Nacht
      • Änderung von Wetterbedingungen wie bewölkt, neblig, Regen, Schnee oder klar

Umwandlung video-basierter Simulationen

  • Nimmt normale Kamera- oder Dashcam-Videos als Eingabe und wandelt sie in eine Multisensor-Simulation aus der Perspektive des Waymo Driver um
    • Da reale Videos die Grundlage bilden, sind Realismus und Genauigkeit hoch
  • Beispiele: umgewandelte Videos realer Orte wie Norwegen, der Arches National Park in Utah und Death Valley in Kalifornien

Skalierbare Inferenz (Scalable Inference)

  • Lange Szenensimulationen sind rechenintensiv, doch eine effizientere Modellvariante reduziert den Rechenaufwand deutlich bei gleichbleibend hoher Qualität
    • Unterstützt lang andauernde Fahrszenarien wie das Durchfahren enger Spuren, komplexe Kreuzungen oder Bergauffahrten
  • Beispiele in 4-facher Wiedergabegeschwindigkeit: Umfahren eines Autobahnengpasses, Fahren in dicht bebauten Wohngebieten, Ausweichen vor einem Motorrad bergauf oder ein U-Turn eines SUV

Sicherheit und Skalierbarkeit

  • Situationen, die in der Realität nahezu unmöglich sind, können virtuell nachgebildet werden, um sich im Voraus darauf vorzubereiten
  • Stärkt die Sicherheitsstandards des Waymo Driver und schafft die Grundlage für die Ausweitung des Dienstes auf neue Regionen und Umgebungen
  • An dem Projekt waren zahlreiche Forschende von Waymo und Google DeepMind beteiligt

1 Kommentare

 
GN⁺ 2026-02-07
Hacker-News-Kommentare
  • Jetzt verstehe ich, warum sich DeepMind plötzlich auf world models konzentriert.
    Ich hatte Waymo nie als „Roboter“ wie die Humanoiden von Boston Dynamics betrachtet, aber im Grunde ist es genau das.
    Google/Alphabet hat im AI-Bereich eine erstaunlich vollständige vertikale Integration — eigene Stromerzeugung, Chips, Rechenzentren, Suche·Gmail·YouTube·Gemini·Workspace·Wallet, Milliarden Android- und Chromebook-Nutzer, Werbenetzwerk, Browser, Waymo, Zusammenarbeit mit Boston Dynamics, Kernfusionsforschung bis hin zur Medikamentenentwicklung.
    In dieser Größenordnung sind Chatbots wie ChatGPT oder Grok kaum vergleichbar.

    • Google hat sich eher auf interne Forschung und Entwicklung sowie Eigeneinsatz konzentriert, statt AI als Produkt zu verkaufen.
      Früher dachte ich, die Forschung zu autonomen Fahrzeugen sei für Street View gedacht, aber jetzt sieht es nach einem viel größeren Plan aus.
    • Google forscht schon seit 2018 an world models.
      Das zugehörige Paper gibt es hier.
    • Tesla hat für das FSD-Training ebenfalls ein ähnliches System gebaut, aber es ist schade, dass es nicht als Kartendienst produktisiert wurde.
      Man hätte die Straßensituation in Echtzeit aus den Fahrzeugen heraus aktualisieren können, aber inzwischen wirken sie deutlich zurückgefallen.
    • Auch warum Tesla mit humanoiden Robotern angefangen hat, ergibt in diesem Kontext Sinn.
    • Wenn einem diese Perspektive erst jetzt klar wird, ist man Tesla wohl drei Jahre hinterher.
      Ein passendes Video gibt es hier.
  • Es heißt, das Genie-Modell könne seltene Ereignisse (Tornados, Begegnungen mit Elefanten usw.) simulieren, aber ich frage mich, ob die generierten Ergebnisse wirklich realistisch sind.
    Wenn das Modell zum Beispiel eine Straße vorhersagt, die mit 5-mm-Stahlkugeln bedeckt ist, wie prüft man dann, ob das überhaupt eine sinnvolle Annahme ist?

    • Mit der Zeit wird sich die Qualität von world models verbessern, sodass autonome Fahrsysteme mit „hinreichend realistischen“ synthetischen Daten trainiert werden können.
      Es muss nicht perfekt sein; durch Wiederholung und Validierung kann ein positiver Verbesserungszyklus entstehen.
    • Es geht nicht darum zu verkünden: „Jetzt ist das Auto sogar gegen Stahlkugeln sicher“, sondern eher darum, wie bei Unit-Tests zu prüfen, ob es in bestimmten Situationen wie erwartet reagiert.
      Auch Extremfälle wie eine weiße Kuh im Schneesturm lassen sich so in Simulationen erfassen.
    • Wenn man „von Tornados bis zu Elefanten“ simulieren kann, wäre auch ein The-Sims-artiges Spiel ziemlich cool.
    • Eigentlich gilt diese Unsicherheit auch für Menschen.
      Perfekte Vorhersagen sind unmöglich; es ist ein Prozess schrittweiser Verbesserung hin zu bestmöglichen wissensbasierten Entscheidungen.
    • Man braucht einen Ansatz, der in der Simulation trainiert und in der Realität validiert wird.
  • Dass das Waymo World Model sogar gewöhnliche Kameravideos in eine multimodale Simulation umwandeln kann, bedeutet, dass Waymo theoretisch auch nur mit Kameras fahren könnte.

    • Tatsächlich wird es aber in Repräsentationen umgewandelt, die mit LiDAR, Video und anderen Sensoren gebootstrapped wurden.
      Tesla hat nie eine LiDAR-Phase durchlaufen, deshalb ist es schwer, solche Ergebnisse zu erzielen.
    • LiDAR dient als Fehlerkorrektur, wenn die Kameragenauigkeit nachlässt.
      Ähnlich wie die binokulare Tiefenwahrnehmung beim Menschen ergänzt es die Tiefenerkennung.
    • Es bleibt auch wichtig, um sich gegen LiDAR-Jamming-Angriffe zu schützen.
    • Die Umwandlung von Video → Sensordaten und das eigentliche Fahren mit diesen Daten sind zwei getrennte Schritte.
      Ersteres ist fürs Training, Letzteres für reale Fahrzeuge.
    • Autonome Fahrzeuge müssen gesellschaftlich akzeptiert zu werden deutlich sicherer als Menschen sein.
      Deshalb hat ein Ansatz, der nur Kameras nutzt, Grenzen.
  • Die Technik ist beeindruckend, aber ich finde, eine bessere Bahninfrastruktur ist dringender.

    • Aus Sicht eines Bay-Area-Bewohners: Es gibt zwar schon Züge, aber Tarife, Betrieb und Ordnung sind so chaotisch, dass nicht einmal die Betriebskosten gedeckt werden.
      Schwarzfahren, Gewalt und unhygienische Zustände vertreiben die Fahrgäste.
      Vor dieser Realität die Augen zu verschließen und nur nach ÖPNV zu rufen, wirkt hohl.
      Wenn ein Dienst wie Waymo die versprochene Qualität tatsächlich liefert, bekommt er deshalb umso mehr Aufmerksamkeit.
      Persönlich halte ich Bike-Sharing-Systeme für die einzige Alternative, die ihre Versprechen tatsächlich einlöst.
    • Züge werden letztlich zur Hölle, wenn gesellschaftliche Verhaltensnormen nicht aufrechterhalten werden.
      Lärm, Bettelei und Drogenprobleme machen den ÖPNV zu etwas, das Menschen meiden.
    • In jedem Fall behalten Autos weiterhin einen absoluten Vorteil.
      Angesichts der US-Infrastruktur ist eine groß angelegte Bahnreform unrealistisch.
      Selbst in Japan mit seinem ausgebauten Schienennetz unterscheidet sich die Autobesitzquote nicht dramatisch von der in den USA.
    • Ein Fahrzeug, mit dem man überallhin kommt und sicher, sauber und nach dem eigenen Zeitplan unterwegs ist, erscheint mir besser.
    • Trotzdem könnte Waymo ein Wendepunkt zur Verringerung von Fahrern und Fahrzeugbesitz sein.
  • Der Kern dieser Ankündigung ist die Technik zur Erzeugung von 3D-LiDAR-Daten aus 2D-Bildern.
    Der Zugang von DeepMind und Google zu Infrastruktur ist Waymos überwältigender Wettbewerbsvorteil.

    • Tatsächlich gibt es Verfahren zur Schätzung von 3D aus 2D schon seit Jahrzehnten.
    • Es gibt auch Monodepth-Ansätze wie Metric3D, aber Waymos Ergebnisse sind eindeutig auf aktuellem Spitzenniveau (SOTA).
  • Simulationen von Überschwemmungen, Tornados und Waldbränden sind beeindruckend, aber es ist fraglich, dass Waymo bei einer Stromausfallsituation kollektiv stehen blieb, obwohl das ein viel häufigeres Szenario ist.
    Wenn solche Basisszenarien nicht verarbeitet werden können, ist der Nutzen der Simulation begrenzt.

    • Simulationen verbessern die Leistung einzelner Fahrzeuge, aber der Stromausfall war ein Problem des Gesamtsystems durch Überlastung des Remote-Support-Personals.
      Das heißt: Simulation bleibt wertvoll, kann aber nicht jedes Versagen verhindern.
    • Tatsächlich gab es auch einen Fall, in dem Waymo in ein Überschwemmungsgebiet einfuhr.
      Passendes Video
  • Es wirkt riskant, dass Waymo im Training virtuelle kontrafaktische Situationen nutzt.
    Da es mehr Videos geben dürfte, in denen gut reagiert wurde, als echte tragische Fälle, könnte das am Ende übermäßiges Selbstvertrauen antrainieren.

    • Tatsächlich geht es aber nicht um „kontrafaktisch“, sondern um Generierung zur Ergänzung seltener Situationen.
      Das Ziel ist, dass Waymo auch bei Tornados oder Elefanten nicht einfach stehen bleibt, sondern reagiert.
    • Fahren ist ein Problem des Gleichgewichts zwischen Geschwindigkeit und Sicherheit.
      Wenn man nur vollständige Sicherheit anstrebt, bewegt sich das Auto am Ende gar nicht mehr.
    • An einer Kreuzung nicht einzufahren, obwohl es sicher wäre, oder nur mit 5 mph zu fahren, ist ebenfalls schlechtes Fahrverhalten.
      Der Ansatz „langsamer ist automatisch sicherer“ stimmt so nicht.
  • Ein world model könnte in echten Sicherheitssituationen wegen verzerrter Daten gefährlich sein.
    Wenn es mit Daten trainiert wird, in denen es fast keine Fehlschläge gibt, lassen sich reale Unfallsituationen womöglich nicht reproduzieren.

    • Waymo trainiert allerdings bereits mit mehr als 100 Millionen Meilen realer Fahrdaten.
      Als Beispiel zeigt dieses Video einen Fall der Kollisionsvermeidung.
    • Natürlich besteht weiterhin die Möglichkeit von Verzerrungen, aber durch promptbasierte Szenariogenerierung mit LLMs lässt sich mehr Vielfalt erzeugen.
      Allerdings bleibt unklar, was genau als „hinreichend realistisch“ gelten soll.
      Da auch Menschen nicht zu 100 % vertrauenswürdig sind, dürfte die gesellschaftliche Akzeptanz steigen, wenn ein zehnmal sichereres Niveau mit verifizierbaren codebasierten Sicherheitsmechanismen kombiniert wird.
  • DeepMinds Project Genie scheint die technische Grundlage von Waymo zu sein.
    Verwandter Beitrag: Genie 3: A new frontier for world models
    Hacker-News-Diskussion: Genie 3, Project Genie

    • DeepMind ist nicht einfach nur eine Alphabet-Tochter, sondern die Schlüsselorganisation, in der Demis Hassabis die gesamte Google-AI führt.
  • Das erinnert mich an das Bell-Curve-Meme des Trainings für autonomes Fahren.
    Man beginnt mit physikbasierten Simulatoren, sammelt reale Daten und kehrt dann wieder zu Deep-Learning-Simulatoren mit physikalischen Informationen zurück.

    • Am Ende läuft es in einem Zyklus aus einfacher Simulation → reale Daten → Simulation für seltene reale Situationen.
      Das wirkt wie eine so natürliche Entwicklungsstufe, dass man diesem Muster fast einen Namen geben sollte.