14 Punkte von GN⁺ 2025-11-12 | 1 Kommentare | Auf WhatsApp teilen
  • Räumliche Intelligenz (spatial intelligence) ist ein Kernbereich, der grundlegend verändert, wie KI die reale und die virtuelle Welt versteht und mit ihnen interagiert
  • Aktuelle Large Language Models (LLMs) sind bei der Sprachverarbeitung hervorragend, erreichen aber bei räumlichem Schlussfolgern zu Distanz, Richtung und physikalischer Konsistenz nicht das menschliche Niveau
  • Als neuer Ansatz zur Lösung dieses Problems wird das „World Model“ vorgeschlagen, eine Architektur der nächsten Generation für generative Modelle mit generativen, multimodalen und interaktiven Eigenschaften
  • World Labs entwickelt solche Modelle; eine frühe Version namens „Marble“ demonstriert die Fähigkeit, auf Basis mehrerer Eingaben konsistente 3D-Umgebungen zu erzeugen und aufrechtzuerhalten
  • Räumliche Intelligenz ist die nächste Stufe der KI-Entwicklung, die menschliche Fähigkeiten in Bereichen wie Kreativität, Robotik sowie Wissenschaft, Medizin und Bildung erweitert

Konzept und Bedeutung räumlicher Intelligenz

  • Die menschliche Intelligenz hat sich auf Grundlage der Perception-Action Loop entwickelt, und räumliche Intelligenz ist ein Schlüsselelement, das dies ermöglicht
    • Alltägliche Handlungen wie das Einparken eines Autos, das Greifen von Gegenständen oder die Fortbewegung in komplexen Umgebungen beruhen auf räumlichem Schlussfolgern
    • Auch in der kindlichen Entwicklung vor dem Spracherwerb entsteht das Raumgefühl durch Interaktion mit der Umgebung
  • Kreativität und Vorstellungskraft beruhen ebenfalls auf räumlicher Intelligenz
    • Von Höhlenmalereien über Filme und Spiele bis hin zu Virtual Reality (VR) stellt der Mensch die Welt durch räumliches Denken dar
    • Auch in Industriedesign, Digital Twins und beim Training von Robotern spielt räumliche Simulation eine zentrale Rolle
  • Historisch war räumliche Intelligenz ebenfalls eine Triebkraft der Zivilisationsentwicklung
    • Die Berechnung des Erdumfangs durch Eratosthenes, die Konstruktionsinnovation der Spinning Jenny und die Entdeckung der DNA-Struktur sind alles Ergebnisse räumlichen Denkens
  • Die KI hat zwar bei visueller Erkennung und Generierung Fortschritte gemacht, doch räumliche Konsistenz beim Verständnis von Distanz, Richtung und physikalischen Gesetzen ist weiterhin unzureichend
    • Selbst moderne multimodale Modelle zeigen schwache Leistungen bei Objektrotation, Labyrinth-Navigation und physikalischer Vorhersage
    • Diese Grenzen schränken Anwendungen in der realen Welt wie Robotiksteuerung, autonomes Fahren und immersives Lernen ein

World Models: eine neue KI-Architektur zur Umsetzung räumlicher Intelligenz

  • Um räumliche Intelligenz zu realisieren, braucht es komplexere World Models als LLMs
    • Sie müssen die semantische, physikalische, geometrische und dynamische Komplexität realer und virtueller Welten integriert verstehen, erzeugen und mit ihnen interagieren
  • Drei Kernfähigkeiten von World Models
    1. Generativ: Sie erzeugen Welten, die wahrnehmungsmäßig, geometrisch und physikalisch konsistent sind
      • Sie simulieren reale oder virtuelle Räume und wahren dabei die Kontinuität zwischen aktuellem und vergangenem Zustand
    2. Multimodal: Sie verarbeiten verschiedene Eingaben wie Bilder, Videos, Text und Gesten integriert
      • Dafür sind zugleich visuelle Genauigkeit und semantische Interpretationsfähigkeit erforderlich
    3. Interaktiv: Sie sagen den nächsten Zustand auf Basis eingegebener Handlungen voraus und generieren ihn
      • Wenn ein Zielzustand vorgegeben ist, müssen sie auch die dazu passenden Weltveränderungen und Handlungen vorhersagen können
  • Da sie physikalische Gesetze, geometrische Strukturen und Dynamik konsistent abbilden müssen, ist die technische Schwierigkeit deutlich höher als bei Sprachgenerierung

Forschung von World Labs und technische Herausforderungen

  • World Labs wurde Anfang 2024 gegründet und forscht an World Models mit Fokus auf räumliche Intelligenz
  • Zentrale Forschungsthemen
    • Definition einer universellen Lernfunktion: Entwicklung eines Lernziels, das so einfach wie die „Next-Token-Prediction“ von LLMs ist und zugleich physikalische und geometrische Gesetze widerspiegelt
    • Großskalige Trainingsdaten: Nutzung mehrerer Quellen wie Internetbilder und -videos, synthetische Daten sowie Tiefen- und haptische Informationen
    • Neue Modellarchitekturen: Forschung zu Tokenisierung und Speicherstrukturen auf Basis von 3D- und 4D-Wahrnehmung
      • Beispiel: RTFM (Real-Time Frame-based Model) nutzt räumliche Frames als Speicher, um Echtzeitgenerierung und Konsistenz zu erhalten
  • Das frühe Ergebnis Marble erzeugt und erhält konsistente 3D-Umgebungen aus mehreren Eingaben und wurde einigen Nutzern bereits demonstriert
    • Eine spätere öffentliche Veröffentlichung ist geplant

Anwendungsfelder räumlicher Intelligenz

Kreativität und Content-Produktion

  • Marble bietet Filmschaffenden, Game-Designern und Architekten die Möglichkeit, vollständig erkundbare 3D-Welten zu erzeugen
    • Verschiedene Szenen und Blickwinkel lassen sich ohne Budget- oder geografische Einschränkungen erproben
    • So entstehen immersive Erfahrungen für Storytelling, Kunst, Bildung und Design
  • Durch räumliches Narrative Design lässt sich der Visualisierungsprozess in Architektur-, Industrie- und Modedesign verkürzen
  • Mit der Ausweitung immersiver Erlebnisse auf Basis von VR und XR können auch einzelne Kreative ihre eigenen Welten aufbauen

Robotik

  • Ein Engpass beim Lernen von Robotern ist der Mangel an Trainingsdaten; World Models können das ausgleichen
    • Sie verringern die Lücke zwischen Simulation und Realität und ermöglichen Lernen in unterschiedlichsten Umgebungen
  • Für die Umsetzung menschenzentrierter kollaborativer Roboter ist räumliche Intelligenz unverzichtbar
    • Ziel ist die Entwicklung von Robotern, die in Laboren oder Haushalten menschliche Ziele und Handlungen verstehen und kooperativ darauf eingehen
  • Sie können auch zum Aufbau von Trainingsumgebungen und Benchmarks für Robotern unterschiedlichster Bauformen genutzt werden — von Nanobots über Soft Robots bis zu Robotern für die Tiefsee oder den Weltraum

Wissenschaft, Medizin und Bildung

  • Wissenschaftliche Forschung: Mehrdimensionale Simulationen beschleunigen Experimente und senken Rechenkosten etwa in der Klima- oder Materialforschung
  • Medizin: Der Einsatz räumlich intelligenter KI wächst bei Wirkstoffsuche, Bilddiagnostik und Patientenmonitoring
  • Bildung: Komplexe Konzepte lassen sich visualisieren, und es entstehen personalisierte immersive Lernumgebungen
    • Lernende können Zellstrukturen oder historische Ereignisse erkunden, Fachkräfte ihre Fähigkeiten in realitätsnahen Simulationen trainieren

Vision einer menschenzentrierten KI-Entwicklung

  • Ziel der KI-Entwicklung ist die Erweiterung menschlicher Fähigkeiten, nicht ihr Ersatz
    • Die Entwicklung sollte Kreativität, Produktivität, Verbundenheit und Lebenszufriedenheit steigern
  • Räumliche Intelligenz wird als Technologie vorgestellt, die menschliche Vorstellungskraft, Fürsorge und Entdeckungsfähigkeit erweitert
  • Um diese Vision zu verwirklichen, ist die Zusammenarbeit des gesamten KI-Ökosystems nötig — von Forschenden über Unternehmen bis hin zu politischen Entscheidungsträgern

Fazit

  • KI hat die Gesellschaft bereits umfassend verändert, doch räumliche Intelligenz wird als nächste Innovationsstufe beschrieben
  • Mit World Models wird die Entwicklung räumlich intelligenter Maschinen möglich, die harmonisch mit der realen Welt interagieren
  • Das gilt als technologischer Wendepunkt, der menschliche Kernaktivitäten wie Krankheitsforschung, Storytelling und Fürsorge verbessert
  • So wie die Evolution menschlicher Intelligenz mit räumlicher Intelligenz begann, könnte auch die Vollendung der KI in räumlicher Intelligenz liegen

1 Kommentare

 
GN⁺ 2025-11-12
Hacker-News-Kommentare
  • Beim Lesen des Artikels wurde mir nicht klar, was sie eigentlich verstehen
    In dem Text steckt kaum substanzieller Inhalt, im Grunde nur: „Wir sammeln räumliche Daten wie ImageNet“
    Menschen, die räumliche Intelligenz erforschen, kommen meist eher aus den Neurowissenschaften
    In meiner Übersichtsarbeit habe ich erläutert, dass entorhinal cortex, grid cell und Koordinatentransformationen der Schlüssel sein könnten
    Alle Tiere transformieren in Echtzeit Koordinaten, um sich in der Welt zu orientieren, und der Mensch verfügt darunter über die meisten Koordinatenrepräsentationen
    Intelligenz auf menschlichem Niveau heißt für mich zu wissen, wann und wie man Bezugssysteme transformiert, um nützliche Informationen zu gewinnen
    Der Text entstand noch vor dem LLM-Boom, aber ich halte diese Richtung weiterhin für richtig

    • Ich hatte in den 1990ern ähnliche Gedanken
      Das führte zu Arbeiten an Kollisionserkennung, physikbasierter Animation, dem Lösen nichtlinearer Gleichungen und beinbasierter Fortbewegung in rauem Gelände, aber es war keine KI
      Heute setzt man enorme Rechenleistung ein und hofft, dass Lernsysteme selbst eine interne Repräsentation der räumlichen Welt finden
      Robotisches Gehen ist inzwischen ziemlich gut, aber Manipulation in unstrukturierten Umgebungen ist immer noch miserabel
      Selbst im Vergleich zu Videos aus McCarthys Stanford-Labor in den 1960ern ist der Unterschied nicht groß
      Früher dachte ich, wir müssten erst Intelligenz auf Maus- oder Eichhörnchenniveau erreichen, bevor wir an menschliches Niveau denken können, daher überrascht mich, dass abstrakte KI zuerst kam
      In letzter Zeit finde ich Forschung zur Videogenerierung, bei der nach kurzen Clips die nächste Szene vorhergesagt wird, besonders interessant
      Der Kern von common sense ist für mich genau die Fähigkeit, in kurzer Zeit vorherzusagen, „was als Nächstes passiert“
    • Interessant ist, dass sowohl du als auch das Ehepaar Moser (Nobelpreisträger) glaubt, dass grid cells zentral dafür sind, wie Tiere ihre Position in der Welt verstehen
      Dazu ist auch diese Pressemitteilung zum Nobelpreis lesenswert
    • Ich habe nach ein paar Absätzen aufgegeben, weil nirgends definiert wurde, was mit „räumlicher Intelligenz“ gemeint ist
      Zu viele VC-Schlagwörter wie „transform“, „revolutionize“, „next frontier“ und „North Star“ untergraben das Vertrauen
    • Ich habe die Arbeit gern gelesen, besonders das Literaturverzeichnis war spannend
      2018 in Nature: "Vector-based navigation using grid-like representations in artificial agents",
      2024 in Nature: "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
      sowie DeepMinds grid-cell-Simulation sind ebenfalls sehenswert
      In den Neurowissenschaften wird räumliche Wahrnehmung schon seit ziemlich langer Zeit erforscht
    • Am Ende zählt, ob man aus solcher Forschung echte Einsichten gewinnen kann
      Biologische Systeme direkt zu kopieren scheitert fast immer
      CNNs waren vom Gehirn inspiriert, unterscheiden sich strukturell aber deutlich, und LLMs ähneln dem menschlichen Gehirn kaum
      Die funktionale Ähnlichkeit von LLMs stammt nicht aus der Nachahmung der Hirnstruktur, sondern aus dem Trainingsprozess
  • Das ist letztlich nur ein Simulationssystem, das in einer engen virtuellen Welt funktioniert
    Solche Systeme helfen kaum dabei, die komplexe Dynamik der realen Welt zu lernen
    Ein Modell der virtuellen Welt ist nur ein vereinfachter Spezialfall eines Modells der physischen Welt, und ich sehe keinen Beleg dafür, dass dieses Unternehmen bei räumlicher Intelligenz echte Fortschritte erzielt hat

  • Ich hatte kürzlich ein erstaunliches Erlebnis damit, agentic coding auf CAD anzuwenden
    Ich musste einem 3D-Druckmodell ein Gewinde hinzufügen und habe den Agenten mithilfe von Computergeometrie das Modell „spüren“ lassen
    Ich habe den Radius einer Kugel über das gesamte Modell konvolviert, um die Position eines Ports zu finden und dort das Gewinde hinzuzufügen
    Nach ein paar Versuchen hat es funktioniert, und diese Erfahrung hat mir gezeigt, dass ein Modell eine Art „taktiles Empfinden“ braucht
    Am Ende musste das 3D-Modell als Code implementiert sein, damit es überprüfbar ist

    • Das Potenzial von Generative CAD ist enorm
      Ich habe mit OpenSCAD experimentiert, aber den aktuellen Modellen fehlt noch common sense für Formverbindungen
      Mit mehr codebasierten CAD-Datensätzen würde das deutlich nützlicher werden
      Andernfalls braucht man am Ende wohl doch physiksimulationsbasiertes Lernen
    • Mich würde interessieren, ob du CadQuery verwendet hast; falls du einen Beitrag mit deinen Erkenntnissen geschrieben hast, würde ich ihn gern lesen
    • Ich würde den Implementierungsprozess gern detaillierter verstehen und frage mich, ob du planst, das schriftlich festzuhalten
    • Ich experimentiere ebenfalls mit einem Ansatz für generative 3D-Objekte und würde gern mehr hören
    • Anders als bei LLM-Prompts ist es wirklich schwer, geometrische Objekte textlich zu beschreiben
      Es entsteht schnell eine Mehrdeutigkeit auf dem Niveau von „Stell das nicht dahin, sondern dorthin“
  • Genie 3 hat das von ihr genannte Ziel, also ein steuerbares Weltmodell mit konsistenten physikalischen Gesetzen, bereits in gewissem Maß erreicht
    Das Schwestermodell Veo 3 zeigt auch Fähigkeiten zur Lösung räumlicher Probleme
    Genie und Veo kommen ihrer Vision viel näher als World Labs
    Dass der Artikel Googles Modelle überhaupt nicht erwähnt, lässt ihn wie einen PR-Text für das eigene Unternehmen wirken

  • Heutige KI lernt nur aus dem Web und nicht aus Interaktion mit Menschen
    Menschen lernen über lebenslangen Kontext und Erinnerung, aber bei KI verschwindet dieser Kontext, sobald das Gespräch endet
    Mit einem personalisierten großen Kontextspeicher würde sie viel wertvoller werden

    • Nested Learning von Google Research könnte für dieses Problem eine Lösung sein
      Bei bisherigen Verfahren tritt beim Nachtrainieren catastrophic forgetting auf, während Nested Learning das System in viele kleine Modelle aufteilt, damit beim Retraining andere Teile nicht beschädigt werden
    • Der menschliche „Kontext“ ist das Ergebnis von Milliarden Jahren evolutionärer Akkumulation
      Unser räumliches Verständnis ist so gewaltig wie eine Quantensimulation im Maßstab des Universums
      Demgegenüber können wir heute vollständig höchstens Dinge auf Atom- oder Zellebene simulieren
  • Beim Lesen dieses Artikels musste ich daran denken, dass das erste Beispiel dafür, dass der Mensch der Natur „vorausgedacht“ hat, das Rad war
    Die Natur ist uneben, aber der Mensch hat flache Straßen gebaut, um das Rollen zu ermöglichen
    Ein weiteres Beispiel für wissenschaftlichen und technischen Fortschritt ist, dass Musterintuition über Generationen weitergegeben werden kann
    Ich weiß nicht, ob „Superintelligenz“ außer in Form von Geschwindigkeit möglich ist, aber die Fähigkeit zum dreidimensionalen Denken wird wesentlich dafür sein, dass KI über Mensch und Natur hinausgeht

    • Der menschliche Körper ist ein organisiertes System, in dem Zellen kooperieren
      So wie Blutgefäße Nährstoffe und Signale transportieren, transportieren Straßen Ressourcen
      Vielleicht hat die Natur diese Organisationsfähigkeit nur auf die Ebene von Arten ausgeweitet, und die Grundlage für die Behauptung, der Mensch stehe über der Natur, ist schwach
  • Menschliche Kognition ist ein Bauwerk, das auf räumlicher Intelligenz errichtet wurde
    Sie besteht nicht nur aus abstraktem Denken, sondern aus integrierter Erfahrung auf Basis von Sinneswahrnehmung
    Evolution hat Generalisierung nicht durch ein symbolisches Gehirn, sondern durch Verschmelzung der Sinne erreicht
    Intelligenz entsteht nicht aus Algorithmen, sondern aus kohärenter Harmonie zwischen den Sinnen
    Die Vollständigkeit der Sinneswahrnehmung ist der richtige Weg nach vorn

  • Ich verfolge diesen Blogbeitrag zum Stand des räumlichen Schlussfolgerns bei LLMs
    Das Fazit ist … es liegt noch ein weiter Weg vor uns

  • Spatial tokens können hilfreich sein, sind aber nicht zwingend notwendig
    Viele physikalische Probleme lassen sich immer noch mit Papier und Stift lösen
    Es ist erstaunlich, dass sich ein 512×512-Bild mit 85 Tokens und Video mit 263 Tokens pro Sekunde darstellen lässt
    Das wirkt wie ein neues Gleichgewichtsproblem zwischen Speicher und Embedding
    Wie bei der Frage „Kannst du einen Apfel im Kopf rotieren lassen?“ würden räumliche Embeddings ein intuitives Verständnis von Dynamik ermöglichen
    Auch unser Team bei FlyShirley erforscht diesen Bereich mit Pilotentrainingssimulationen und plant, Fei-Feis Modell auszuprobieren

  • Da videobasiertes Lernen und Schlussfolgern gewaltige Rechenressourcen erfordern,
    ist fraglich, ob dieser Ansatz für Agenten-Assistenten (Coding, Marketing, Terminplanung usw.) in der Praxis wirklich hilfreich ist
    Ich denke eher, dass er im Bereich Robotik eine günstigere Rechenstruktur haben wird