Räumliche Intelligenz ist die nächste Pionierfront der KI

(drfeifei.substack.com)

14 Punkte von GN⁺ 2025-11-12 | 1 Kommentare | Auf WhatsApp teilen

Räumliche Intelligenz (spatial intelligence) ist ein Kernbereich, der grundlegend verändert, wie KI die reale und die virtuelle Welt versteht und mit ihnen interagiert
Aktuelle Large Language Models (LLMs) sind bei der Sprachverarbeitung hervorragend, erreichen aber bei räumlichem Schlussfolgern zu Distanz, Richtung und physikalischer Konsistenz nicht das menschliche Niveau
Als neuer Ansatz zur Lösung dieses Problems wird das „World Model“ vorgeschlagen, eine Architektur der nächsten Generation für generative Modelle mit generativen, multimodalen und interaktiven Eigenschaften
World Labs entwickelt solche Modelle; eine frühe Version namens „Marble“ demonstriert die Fähigkeit, auf Basis mehrerer Eingaben konsistente 3D-Umgebungen zu erzeugen und aufrechtzuerhalten
Räumliche Intelligenz ist die nächste Stufe der KI-Entwicklung, die menschliche Fähigkeiten in Bereichen wie Kreativität, Robotik sowie Wissenschaft, Medizin und Bildung erweitert

Konzept und Bedeutung räumlicher Intelligenz

Die menschliche Intelligenz hat sich auf Grundlage der Perception-Action Loop entwickelt, und räumliche Intelligenz ist ein Schlüsselelement, das dies ermöglicht
- Alltägliche Handlungen wie das Einparken eines Autos, das Greifen von Gegenständen oder die Fortbewegung in komplexen Umgebungen beruhen auf räumlichem Schlussfolgern
- Auch in der kindlichen Entwicklung vor dem Spracherwerb entsteht das Raumgefühl durch Interaktion mit der Umgebung
Kreativität und Vorstellungskraft beruhen ebenfalls auf räumlicher Intelligenz
- Von Höhlenmalereien über Filme und Spiele bis hin zu Virtual Reality (VR) stellt der Mensch die Welt durch räumliches Denken dar
- Auch in Industriedesign, Digital Twins und beim Training von Robotern spielt räumliche Simulation eine zentrale Rolle
Historisch war räumliche Intelligenz ebenfalls eine Triebkraft der Zivilisationsentwicklung
- Die Berechnung des Erdumfangs durch Eratosthenes, die Konstruktionsinnovation der Spinning Jenny und die Entdeckung der DNA-Struktur sind alles Ergebnisse räumlichen Denkens
Die KI hat zwar bei visueller Erkennung und Generierung Fortschritte gemacht, doch räumliche Konsistenz beim Verständnis von Distanz, Richtung und physikalischen Gesetzen ist weiterhin unzureichend
- Selbst moderne multimodale Modelle zeigen schwache Leistungen bei Objektrotation, Labyrinth-Navigation und physikalischer Vorhersage
- Diese Grenzen schränken Anwendungen in der realen Welt wie Robotiksteuerung, autonomes Fahren und immersives Lernen ein

World Models: eine neue KI-Architektur zur Umsetzung räumlicher Intelligenz

Um räumliche Intelligenz zu realisieren, braucht es komplexere World Models als LLMs
- Sie müssen die semantische, physikalische, geometrische und dynamische Komplexität realer und virtueller Welten integriert verstehen, erzeugen und mit ihnen interagieren
Drei Kernfähigkeiten von World Models
1. Generativ: Sie erzeugen Welten, die wahrnehmungsmäßig, geometrisch und physikalisch konsistent sind
  - Sie simulieren reale oder virtuelle Räume und wahren dabei die Kontinuität zwischen aktuellem und vergangenem Zustand
2. Multimodal: Sie verarbeiten verschiedene Eingaben wie Bilder, Videos, Text und Gesten integriert
  - Dafür sind zugleich visuelle Genauigkeit und semantische Interpretationsfähigkeit erforderlich
3. Interaktiv: Sie sagen den nächsten Zustand auf Basis eingegebener Handlungen voraus und generieren ihn
  - Wenn ein Zielzustand vorgegeben ist, müssen sie auch die dazu passenden Weltveränderungen und Handlungen vorhersagen können
Da sie physikalische Gesetze, geometrische Strukturen und Dynamik konsistent abbilden müssen, ist die technische Schwierigkeit deutlich höher als bei Sprachgenerierung

Forschung von World Labs und technische Herausforderungen

World Labs wurde Anfang 2024 gegründet und forscht an World Models mit Fokus auf räumliche Intelligenz
Zentrale Forschungsthemen
- Definition einer universellen Lernfunktion: Entwicklung eines Lernziels, das so einfach wie die „Next-Token-Prediction“ von LLMs ist und zugleich physikalische und geometrische Gesetze widerspiegelt
- Großskalige Trainingsdaten: Nutzung mehrerer Quellen wie Internetbilder und -videos, synthetische Daten sowie Tiefen- und haptische Informationen
- Neue Modellarchitekturen: Forschung zu Tokenisierung und Speicherstrukturen auf Basis von 3D- und 4D-Wahrnehmung
  - Beispiel: RTFM (Real-Time Frame-based Model) nutzt räumliche Frames als Speicher, um Echtzeitgenerierung und Konsistenz zu erhalten
Das frühe Ergebnis Marble erzeugt und erhält konsistente 3D-Umgebungen aus mehreren Eingaben und wurde einigen Nutzern bereits demonstriert
- Eine spätere öffentliche Veröffentlichung ist geplant

Anwendungsfelder räumlicher Intelligenz

Kreativität und Content-Produktion

Marble bietet Filmschaffenden, Game-Designern und Architekten die Möglichkeit, vollständig erkundbare 3D-Welten zu erzeugen
- Verschiedene Szenen und Blickwinkel lassen sich ohne Budget- oder geografische Einschränkungen erproben
- So entstehen immersive Erfahrungen für Storytelling, Kunst, Bildung und Design
Durch räumliches Narrative Design lässt sich der Visualisierungsprozess in Architektur-, Industrie- und Modedesign verkürzen
Mit der Ausweitung immersiver Erlebnisse auf Basis von VR und XR können auch einzelne Kreative ihre eigenen Welten aufbauen

Robotik

Ein Engpass beim Lernen von Robotern ist der Mangel an Trainingsdaten; World Models können das ausgleichen
- Sie verringern die Lücke zwischen Simulation und Realität und ermöglichen Lernen in unterschiedlichsten Umgebungen
Für die Umsetzung menschenzentrierter kollaborativer Roboter ist räumliche Intelligenz unverzichtbar
- Ziel ist die Entwicklung von Robotern, die in Laboren oder Haushalten menschliche Ziele und Handlungen verstehen und kooperativ darauf eingehen
Sie können auch zum Aufbau von Trainingsumgebungen und Benchmarks für Robotern unterschiedlichster Bauformen genutzt werden — von Nanobots über Soft Robots bis zu Robotern für die Tiefsee oder den Weltraum

Wissenschaft, Medizin und Bildung

Wissenschaftliche Forschung: Mehrdimensionale Simulationen beschleunigen Experimente und senken Rechenkosten etwa in der Klima- oder Materialforschung
Medizin: Der Einsatz räumlich intelligenter KI wächst bei Wirkstoffsuche, Bilddiagnostik und Patientenmonitoring
Bildung: Komplexe Konzepte lassen sich visualisieren, und es entstehen personalisierte immersive Lernumgebungen
- Lernende können Zellstrukturen oder historische Ereignisse erkunden, Fachkräfte ihre Fähigkeiten in realitätsnahen Simulationen trainieren

Vision einer menschenzentrierten KI-Entwicklung

Ziel der KI-Entwicklung ist die Erweiterung menschlicher Fähigkeiten, nicht ihr Ersatz
- Die Entwicklung sollte Kreativität, Produktivität, Verbundenheit und Lebenszufriedenheit steigern
Räumliche Intelligenz wird als Technologie vorgestellt, die menschliche Vorstellungskraft, Fürsorge und Entdeckungsfähigkeit erweitert
Um diese Vision zu verwirklichen, ist die Zusammenarbeit des gesamten KI-Ökosystems nötig — von Forschenden über Unternehmen bis hin zu politischen Entscheidungsträgern

Fazit

KI hat die Gesellschaft bereits umfassend verändert, doch räumliche Intelligenz wird als nächste Innovationsstufe beschrieben
Mit World Models wird die Entwicklung räumlich intelligenter Maschinen möglich, die harmonisch mit der realen Welt interagieren
Das gilt als technologischer Wendepunkt, der menschliche Kernaktivitäten wie Krankheitsforschung, Storytelling und Fürsorge verbessert
So wie die Evolution menschlicher Intelligenz mit räumlicher Intelligenz begann, könnte auch die Vollendung der KI in räumlicher Intelligenz liegen

1 Kommentare

GN⁺ 2025-11-12

Hacker-News-Kommentare

Beim Lesen des Artikels wurde mir nicht klar, was sie eigentlich verstehen
In dem Text steckt kaum substanzieller Inhalt, im Grunde nur: „Wir sammeln räumliche Daten wie ImageNet“
Menschen, die räumliche Intelligenz erforschen, kommen meist eher aus den Neurowissenschaften
In meiner Übersichtsarbeit habe ich erläutert, dass entorhinal cortex, grid cell und Koordinatentransformationen der Schlüssel sein könnten
Alle Tiere transformieren in Echtzeit Koordinaten, um sich in der Welt zu orientieren, und der Mensch verfügt darunter über die meisten Koordinatenrepräsentationen
Intelligenz auf menschlichem Niveau heißt für mich zu wissen, wann und wie man Bezugssysteme transformiert, um nützliche Informationen zu gewinnen
Der Text entstand noch vor dem LLM-Boom, aber ich halte diese Richtung weiterhin für richtig
- Ich hatte in den 1990ern ähnliche Gedanken
  Das führte zu Arbeiten an Kollisionserkennung, physikbasierter Animation, dem Lösen nichtlinearer Gleichungen und beinbasierter Fortbewegung in rauem Gelände, aber es war keine KI
  Heute setzt man enorme Rechenleistung ein und hofft, dass Lernsysteme selbst eine interne Repräsentation der räumlichen Welt finden
  Robotisches Gehen ist inzwischen ziemlich gut, aber Manipulation in unstrukturierten Umgebungen ist immer noch miserabel
  Selbst im Vergleich zu Videos aus McCarthys Stanford-Labor in den 1960ern ist der Unterschied nicht groß
  Früher dachte ich, wir müssten erst Intelligenz auf Maus- oder Eichhörnchenniveau erreichen, bevor wir an menschliches Niveau denken können, daher überrascht mich, dass abstrakte KI zuerst kam
  In letzter Zeit finde ich Forschung zur Videogenerierung, bei der nach kurzen Clips die nächste Szene vorhergesagt wird, besonders interessant
  Der Kern von common sense ist für mich genau die Fähigkeit, in kurzer Zeit vorherzusagen, „was als Nächstes passiert“
- Interessant ist, dass sowohl du als auch das Ehepaar Moser (Nobelpreisträger) glaubt, dass grid cells zentral dafür sind, wie Tiere ihre Position in der Welt verstehen
  Dazu ist auch diese Pressemitteilung zum Nobelpreis lesenswert
- Ich habe nach ein paar Absätzen aufgegeben, weil nirgends definiert wurde, was mit „räumlicher Intelligenz“ gemeint ist
  Zu viele VC-Schlagwörter wie „transform“, „revolutionize“, „next frontier“ und „North Star“ untergraben das Vertrauen
- Ich habe die Arbeit gern gelesen, besonders das Literaturverzeichnis war spannend
  2018 in Nature: "Vector-based navigation using grid-like representations in artificial agents",
  2024 in Nature: "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
  sowie DeepMinds grid-cell-Simulation sind ebenfalls sehenswert
  In den Neurowissenschaften wird räumliche Wahrnehmung schon seit ziemlich langer Zeit erforscht
- Am Ende zählt, ob man aus solcher Forschung echte Einsichten gewinnen kann
  Biologische Systeme direkt zu kopieren scheitert fast immer
  CNNs waren vom Gehirn inspiriert, unterscheiden sich strukturell aber deutlich, und LLMs ähneln dem menschlichen Gehirn kaum
  Die funktionale Ähnlichkeit von LLMs stammt nicht aus der Nachahmung der Hirnstruktur, sondern aus dem Trainingsprozess
Das ist letztlich nur ein Simulationssystem, das in einer engen virtuellen Welt funktioniert
Solche Systeme helfen kaum dabei, die komplexe Dynamik der realen Welt zu lernen
Ein Modell der virtuellen Welt ist nur ein vereinfachter Spezialfall eines Modells der physischen Welt, und ich sehe keinen Beleg dafür, dass dieses Unternehmen bei räumlicher Intelligenz echte Fortschritte erzielt hat
Ich hatte kürzlich ein erstaunliches Erlebnis damit, agentic coding auf CAD anzuwenden
Ich musste einem 3D-Druckmodell ein Gewinde hinzufügen und habe den Agenten mithilfe von Computergeometrie das Modell „spüren“ lassen
Ich habe den Radius einer Kugel über das gesamte Modell konvolviert, um die Position eines Ports zu finden und dort das Gewinde hinzuzufügen
Nach ein paar Versuchen hat es funktioniert, und diese Erfahrung hat mir gezeigt, dass ein Modell eine Art „taktiles Empfinden“ braucht
Am Ende musste das 3D-Modell als Code implementiert sein, damit es überprüfbar ist
- Das Potenzial von Generative CAD ist enorm
  Ich habe mit OpenSCAD experimentiert, aber den aktuellen Modellen fehlt noch common sense für Formverbindungen
  Mit mehr codebasierten CAD-Datensätzen würde das deutlich nützlicher werden
  Andernfalls braucht man am Ende wohl doch physiksimulationsbasiertes Lernen
- Mich würde interessieren, ob du CadQuery verwendet hast; falls du einen Beitrag mit deinen Erkenntnissen geschrieben hast, würde ich ihn gern lesen
- Ich würde den Implementierungsprozess gern detaillierter verstehen und frage mich, ob du planst, das schriftlich festzuhalten
- Ich experimentiere ebenfalls mit einem Ansatz für generative 3D-Objekte und würde gern mehr hören
- Anders als bei LLM-Prompts ist es wirklich schwer, geometrische Objekte textlich zu beschreiben
  Es entsteht schnell eine Mehrdeutigkeit auf dem Niveau von „Stell das nicht dahin, sondern dorthin“
Genie 3 hat das von ihr genannte Ziel, also ein steuerbares Weltmodell mit konsistenten physikalischen Gesetzen, bereits in gewissem Maß erreicht
Das Schwestermodell Veo 3 zeigt auch Fähigkeiten zur Lösung räumlicher Probleme
Genie und Veo kommen ihrer Vision viel näher als World Labs
Dass der Artikel Googles Modelle überhaupt nicht erwähnt, lässt ihn wie einen PR-Text für das eigene Unternehmen wirken
- Gemini ER ist ebenfalls ein Modell, das in der realen Welt räumlich operiert
  Siehe DeepMind Gemini Robotics ER
Heutige KI lernt nur aus dem Web und nicht aus Interaktion mit Menschen
Menschen lernen über lebenslangen Kontext und Erinnerung, aber bei KI verschwindet dieser Kontext, sobald das Gespräch endet
Mit einem personalisierten großen Kontextspeicher würde sie viel wertvoller werden
- Nested Learning von Google Research könnte für dieses Problem eine Lösung sein
  Bei bisherigen Verfahren tritt beim Nachtrainieren catastrophic forgetting auf, während Nested Learning das System in viele kleine Modelle aufteilt, damit beim Retraining andere Teile nicht beschädigt werden
- Der menschliche „Kontext“ ist das Ergebnis von Milliarden Jahren evolutionärer Akkumulation
  Unser räumliches Verständnis ist so gewaltig wie eine Quantensimulation im Maßstab des Universums
  Demgegenüber können wir heute vollständig höchstens Dinge auf Atom- oder Zellebene simulieren
Beim Lesen dieses Artikels musste ich daran denken, dass das erste Beispiel dafür, dass der Mensch der Natur „vorausgedacht“ hat, das Rad war
Die Natur ist uneben, aber der Mensch hat flache Straßen gebaut, um das Rollen zu ermöglichen
Ein weiteres Beispiel für wissenschaftlichen und technischen Fortschritt ist, dass Musterintuition über Generationen weitergegeben werden kann
Ich weiß nicht, ob „Superintelligenz“ außer in Form von Geschwindigkeit möglich ist, aber die Fähigkeit zum dreidimensionalen Denken wird wesentlich dafür sein, dass KI über Mensch und Natur hinausgeht
- Der menschliche Körper ist ein organisiertes System, in dem Zellen kooperieren
  So wie Blutgefäße Nährstoffe und Signale transportieren, transportieren Straßen Ressourcen
  Vielleicht hat die Natur diese Organisationsfähigkeit nur auf die Ebene von Arten ausgeweitet, und die Grundlage für die Behauptung, der Mensch stehe über der Natur, ist schwach
Menschliche Kognition ist ein Bauwerk, das auf räumlicher Intelligenz errichtet wurde
Sie besteht nicht nur aus abstraktem Denken, sondern aus integrierter Erfahrung auf Basis von Sinneswahrnehmung
Evolution hat Generalisierung nicht durch ein symbolisches Gehirn, sondern durch Verschmelzung der Sinne erreicht
Intelligenz entsteht nicht aus Algorithmen, sondern aus kohärenter Harmonie zwischen den Sinnen
Die Vollständigkeit der Sinneswahrnehmung ist der richtige Weg nach vorn
Ich verfolge diesen Blogbeitrag zum Stand des räumlichen Schlussfolgerns bei LLMs
Das Fazit ist … es liegt noch ein weiter Weg vor uns
Spatial tokens können hilfreich sein, sind aber nicht zwingend notwendig
Viele physikalische Probleme lassen sich immer noch mit Papier und Stift lösen
Es ist erstaunlich, dass sich ein 512×512-Bild mit 85 Tokens und Video mit 263 Tokens pro Sekunde darstellen lässt
Das wirkt wie ein neues Gleichgewichtsproblem zwischen Speicher und Embedding
Wie bei der Frage „Kannst du einen Apfel im Kopf rotieren lassen?“ würden räumliche Embeddings ein intuitives Verständnis von Dynamik ermöglichen
Auch unser Team bei FlyShirley erforscht diesen Bereich mit Pilotentrainingssimulationen und plant, Fei-Feis Modell auszuprobieren
Da videobasiertes Lernen und Schlussfolgern gewaltige Rechenressourcen erfordern,
ist fraglich, ob dieser Ansatz für Agenten-Assistenten (Coding, Marketing, Terminplanung usw.) in der Praxis wirklich hilfreich ist
Ich denke eher, dass er im Bereich Robotik eine günstigere Rechenstruktur haben wird

Räumliche Intelligenz ist die nächste Pionierfront der KI

Konzept und Bedeutung räumlicher Intelligenz

World Models: eine neue KI-Architektur zur Umsetzung räumlicher Intelligenz

Forschung von World Labs und technische Herausforderungen

Anwendungsfelder räumlicher Intelligenz

Kreativität und Content-Produktion

Robotik

Wissenschaft, Medizin und Bildung

Vision einer menschenzentrierten KI-Entwicklung

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare