14 Punkte von GN⁺ 2026-02-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Trotz rasanter Fortschritte bei Software-KI haben Roboter in der physischen Welt weiterhin Schwierigkeiten selbst mit grundlegenden Aufgaben wie Wäsche zusammenlegen oder die Spülmaschine ausräumen
  • Die physische Welt ist voller Reibung, Verdeckungen (Occlusion), unvorhersehbarer Dynamik und Zufälligkeit und unterscheidet sich damit grundlegend von textzentrierten KI-Umgebungen
  • Ein World Model funktioniert nicht, indem physikalische Gesetze direkt programmiert werden, sondern indem es aus realer Erfahrung lernt und so zukünftige Zustände in Abhängigkeit von Handlungen vorhersagt
  • JEPA (Joint-Embedding Predictive Architecture) filtert Rauschen heraus, indem es statt Pixeln abstrakte Repräsentationen vorhersagt, hatte jedoch ein Problem mit Repräsentationskollaps (collapse)
  • LeJEPA löst dieses Problem mit mathematischen Regularisierungstechniken und liefert die theoretische Grundlage dafür, dass die Robotik von handgemachten regelbasierten Ansätzen zu lernbasierten Verfahren übergehen kann

Die Lücke zwischen digitaler KI und physischen Robotern

  • LLMs können Code schreiben, Medikamente und Proteine entwerfen, juristische Dokumente zusammenfassen, Schüler tutorieren, Musik und Kunst erzeugen und sogar mathematische Schlussfolgerungsprobleme lösen, an denen klassische KI jahrzehntelang scheiterte
  • Roboter in der physischen Welt scheitern dagegen, sobald sie kontrollierte Lagerumgebungen verlassen, weiterhin an grundlegenden Aufgaben wie Wäsche zusammenlegen, unordentliche Zimmer aufräumen, unregelmäßige Objekte greifen, die Spülmaschine ausräumen, kochen oder den Tisch decken
  • Autonome Haushaltsassistenzroboter, Systeme, die sich sicher durch unvorhersehbare Umgebungen bewegen, oder die flexible Objektmanipulation eines Kleinkinds sind noch nicht realisiert; Roboter in Fabriken und Laboren bleiben teuer, fragil, skriptabhängig und eng spezialisiert
  • Robotikforscher wie Rodney Brooks stehen „vision-only“-Ansätzen skeptisch gegenüber; Manipulation hängt stark von Signalen wie Tastsinn, Kraft-Feedback und Propriozeption ab, doch in heutigen Systemen fehlen diese Signale oder sie sind nur sehr grob vorhanden
  • Sprachmodelle arbeiten in der Form von Text in einer stabilen Welt mit konsistenter Struktur, und digitale Aktionen lassen sich rückgängig machen; die physische Welt ist dagegen voller Reibung, Verdeckungen, unvorhersehbarer Dynamik und ständiger Zufälligkeit

Definition und Rolle des World Model

  • Menschen stützen sich bei Entscheidungen und Planungen in der realen Welt auf eine interne Repräsentation (internal representation) ihrer Umgebung; zu planen bedeutet, sich zukünftige Zustände je nach Handlung innerlich vorzustellen
  • Diese interne Repräsentation behält nur die für die Problemlösung nötigen Informationen und entfernt unnötige Details; bei der Planung des Arbeitswegs berücksichtigt man etwa Straße, Zeit und Verkehrsaufkommen, aber nicht irrelevante Informationen wie das spezifische Geräusch jedes einzelnen Fahrzeugs
  • Auf einer höheren Ebene spiegeln solche internen Repräsentationen die Struktur der Welt wider und ermöglichen es, neue Situationen schnell in vertraute Muster einzuordnen
    • Beispiel: Selbst wenn man zum ersten Mal eine Tür mit einem unbekannten Griff sieht, kann man anhand von Form und Position erkennen, dass es sich um einen Griff handelt, und aus dem allgemeinen Verständnis „Türen öffnet man, indem man Kraft auf den Griff ausübt“ die Funktionsweise ableiten
  • Ein World Model unterscheidet sich von einer Policy, die Beobachtungen unmittelbar in Handlungen umsetzt; statt selbst Entscheidungen zu treffen, sagt es voraus, wie sich die Welt unter verschiedenen möglichen Handlungen verändert, und erzeugt komprimierte Repräsentationen zukünftiger Zustände
  • Mit einem solchen Vorhersagemodell kann ein Planer (oder eine untergeordnete Policy) mehrere vorgestellte Zukünfte vergleichen und bewerten und so die Aktionssequenz wählen, die zum besten Ergebnis führt

Vier Eigenschaften eines nützlichen World Model

  • Die Struktur der Welt widerspiegeln: Es sollte keine rohen Sensordaten, sondern Repräsentationen enthalten, die die Struktur der Welt sichtbar machen
  • Aufgabenübergreifend generalisieren: Es sollte sich an neue Aufgaben anpassen können, ohne jedes Mal von Grund auf neu lernen zu müssen
  • Irrelevante Details herausfiltern: Es sollte sich nur auf Informationen konzentrieren, die das Ergebnis beeinflussen, und Unwichtiges entfernen
  • Veränderungen der Welt durch Handlungen vorhersagen: Es sollte mögliche Ergebnisse mental vorwegnehmen können, bevor tatsächlich gehandelt wird

Die Geschichte des Lernens bedeutungsvoller Weltrepräsentationen

  • Große Durchbrüche im Bereich der Deep-Learning-Perzeption haben unbeabsichtigt intern strukturierte Repräsentationen der Welt hervorgebracht
  • In der Computer Vision bilden Modelle, die darauf trainiert werden, Bilder als Katze, Hund oder Elefant zu klassifizieren, gut organisierte und wiederverwendbare interne Repräsentationen
  • Beim Optimieren des einfachen Ziels, Bildinhalte korrekt vorherzusagen, kodieren die gelernten Features ganz natürlich Informationen wie Form, Textur, Pose und Semantik
  • Solche Repräsentationen können auch ohne zusätzliches Training als Zustandseingaben für Aufgaben wie Objekterkennung, Tracking oder Segmentierung genutzt werden
  • Später weitete sich das Lernen über klassifikationszentrierte Ansätze hinaus auf Bildrekonstruktion aus, bei der fehlende Teile auf Basis des gegebenen Kontexts ergänzt werden, wodurch reichere und stärker generalisierende Repräsentationen entstanden
  • Doch dabei zeigte sich auch eine grundlegende Grenze: Sensorische Eingaben enthalten immer Details, die für nachgelagerte Aufgaben irrelevant und zudem prinzipiell nicht vorhersagbar sind
    • Beispiel: Das feine Wellenmuster auf der Oberfläche eines kochenden Topfs ist im Wesentlichen zufällig und trägt kaum zu irgendeiner Entscheidungsfindung bei
    • Rekonstruktionsbasierte Modelle machen selbst solche Details zum Vorhersageziel und versuchen dadurch, für ein World Model bedeutungslose Zufälligkeit mitzukodieren
    • Das Ergebnis ist, dass Repräsentationen der Welt eher mit Rauschen verstrickt als um die wesentliche Struktur herum organisiert werden

Der Ansatz von JEPA

  • Wenn Bildrekonstruktion ein Problem der Musterergänzung ist (fehlende Pixel vorhersagen, wenn ein Teil des Bildes gegeben ist), dann kann ein World Model als Musterergänzung über die Zeit betrachtet werden
    • Also als das Problem, bei gegebenem aktuellem Weltzustand und einer Aktionssequenz den zukünftigen Zustand vorherzusagen
  • JEPA (Joint-Embedding Predictive Architecture) konzentriert sich nicht auf Bildrekonstruktion oder die Vorhersage zukünftiger Videoframes auf Pixelebene, sondern auf die Vorhersage abstrakter Repräsentationen der Zukunft, konditioniert auf latente Variablen
  • Latente Variablen lassen sich als vom Roboter ausgeführte Handlungen verstehen oder als unabhängige Faktoren, die zukünftige Veränderungen beeinflussen
  • Indem das Modell lernt, nicht das exakte pixelgenaue Erscheinungsbild, sondern den abstrakten Zustand einer Szene vorherzusagen, bildet es organisierte und handlungsfähige Repräsentationen, ohne Modellkapazität an irrelevante visuelle Details zu verschwenden
  • JEPA baut Repräsentationen auf, die stabile und bedeutungsvolle Elemente erfassen und gleichzeitig hochgradig zufällige Details auf natürliche Weise ausschließen
  • Schon das Lernziel selbst lenkt das Modell davon weg, die exakte Form des aus einem Kessel aufsteigenden Dampfes oder die feine Textur zerknitterter Stoffe zu kodieren
    • Solche Details sind von Natur aus nicht vorhersagbar und erschweren die Vorhersage zukünftiger Weltzustände eher noch
  • Um hohe Leistung zu erzielen, muss das Modell die vorhersagbaren Aspekte repräsentieren, die wichtig sind, um zu verstehen, wie sich die Welt weiter verändert
  • Der Kern dieser Architekturentscheidung liegt darin, das Ziel des Modells von bloßer Rekonstruktion hin zum Lernen der vorhersagbaren Dynamik der Welt zu verschieben

Die Grenzen von JEPA und das Problem des Repräsentationskollapses

  • Der Grund, warum sich JEPA in den letzten Jahren nicht stark verbreitet hat, liegt darin, dass es schwierig ist, zwischen rauschhaften, unvorhersagbaren Details und bedeutungsvoller Struktur klar zu unterscheiden
  • Ohne geeignete Einschränkungen neigt das Modell dazu, zu einer trivialen Repräsentation zu kollabieren
  • Das ähnelt einem Ablagesystem, das zur Lösung des Problems von zu vielen Informationen gleich ganze Dokumentkategorien verwirft
    • JEPA-Modelle wählen beim Versuch, unvorhersagbares Rauschen zu vermeiden, eine Abkürzung und entfernen dabei auch nützliche Struktur

LeJEPA: eine mathematische Lösung

  • Randall Balestriero und Yann LeCun schlagen mit LeJEPA einen mathematisch begründeten Regularisierer vor, der den bei JEPA auftretenden Repräsentationskollaps verhindern soll
  • Die Kernidee ist, dafür zu sorgen, dass der interne Repräsentationsraum die Varianz nicht übermäßig auf nur einige wenige Features konzentriert und andere vernachlässigt, sondern in alle Richtungen eine gleichmäßige Auflösung beibehält
  • Dazu wird die Embedding-Verteilung in Richtung einer isotropen Gauß-Verteilung (isotropic Gaussian) geführt
  • Diese Einschränkung veranlasst das Modell, seine Kapazität gleichmäßig über die Repräsentationsdimensionen hinweg zu nutzen und so reichhaltige und gut abgestimmte interne Repräsentationen zu erhalten
  • Obwohl dies wie eine einfache geometrische Einschränkung wirkt, zeigt sie starke Effekte:
    • höhere Stabilität im Trainingsprozess
    • Erhalt bedeutungsvoller Struktur
    • Lernen reichhaltiger und vorhersagbarer Repräsentationen auch ohne Heuristiken wie Data Augmentation oder kontrastive Negative
  • Das markiert den Übergang weg von provisorischen Techniken zur Vermeidung von Modellkollaps hin zu einem theoretischen Ansatz, der das Modell anleitet, die Struktur der Welt selbst zu lernen, ohne sich vom Rauschen treiben zu lassen

Der neue Weg, den World Models eröffnen

  • Diese Ideen deuten auf einen grundlegenden Wandel in der Sicht auf Robotik hin
  • Über Jahrzehnte steckte die Robotik in einer Schleife fest:
    • Lösungen für einzelne Aufgaben wurden von Hand entworfen
    • Fehler in Edge Cases wurden identifiziert
    • Regeln und Ausnahmen wurden immer weiter ergänzt
  • World Models zeigen einen Weg aus diesem Kreislauf
    • statt physikalische Gesetze direkt in Maschinen zu programmieren
    • hin zu Systemen, die lernen, zukünftige Weltzustände vorherzusagen und darauf zu schließen

Offene Fragen, die bleiben

  • wie sich Modelle effizient dazu anleiten lassen, sinnvolle und nützliche Handlungen zu erkunden
  • wie sich auf die gesamte Komplexität unstrukturierter Umgebungen skalieren lässt
  • wie sich bei zunehmender Autonomie Sicherheit wahren und die Ausrichtung auf menschliche Absichten sicherstellen lässt
  • Diese Probleme sind keineswegs einfach, aber sie haben einen qualitativ anderen Charakter als die Probleme, die die Robotik in den vergangenen 50 Jahren ausgebremst haben
  • Neu ist, dass nun ein theoretisches Framework existiert, das zur Struktur des Problems passt

Fazit

  • LeJEPA und verwandte Ansätze sind nicht nur schrittweise Verbesserungen, sondern liefern eine mathematische Grundlage für das Lernen von World Models, die mit der Unsicherheit der realen Welt umgehen können
  • Die Lücke zwischen digitaler Intelligenz und physischer Fähigkeit erscheint damit erstmals nicht mehr wie Science-Fiction, sondern als durch Forschung lösbare Aufgabe

Noch keine Kommentare.

Noch keine Kommentare.