- Räumliche Intelligenz (spatial intelligence) ist ein Kernbereich, der grundlegend verändert, wie KI die reale und die virtuelle Welt versteht und mit ihnen interagiert
- Aktuelle Large Language Models (LLMs) sind bei der Sprachverarbeitung hervorragend, erreichen aber bei räumlichem Schlussfolgern zu Distanz, Richtung und physikalischer Konsistenz nicht das menschliche Niveau
- Als neuer Ansatz zur Lösung dieses Problems wird das „World Model“ vorgeschlagen, eine Architektur der nächsten Generation für generative Modelle mit generativen, multimodalen und interaktiven Eigenschaften
- World Labs entwickelt solche Modelle; eine frühe Version namens „Marble“ demonstriert die Fähigkeit, auf Basis mehrerer Eingaben konsistente 3D-Umgebungen zu erzeugen und aufrechtzuerhalten
- Räumliche Intelligenz ist die nächste Stufe der KI-Entwicklung, die menschliche Fähigkeiten in Bereichen wie Kreativität, Robotik sowie Wissenschaft, Medizin und Bildung erweitert
Konzept und Bedeutung räumlicher Intelligenz
- Die menschliche Intelligenz hat sich auf Grundlage der Perception-Action Loop entwickelt, und räumliche Intelligenz ist ein Schlüsselelement, das dies ermöglicht
- Alltägliche Handlungen wie das Einparken eines Autos, das Greifen von Gegenständen oder die Fortbewegung in komplexen Umgebungen beruhen auf räumlichem Schlussfolgern
- Auch in der kindlichen Entwicklung vor dem Spracherwerb entsteht das Raumgefühl durch Interaktion mit der Umgebung
- Kreativität und Vorstellungskraft beruhen ebenfalls auf räumlicher Intelligenz
- Von Höhlenmalereien über Filme und Spiele bis hin zu Virtual Reality (VR) stellt der Mensch die Welt durch räumliches Denken dar
- Auch in Industriedesign, Digital Twins und beim Training von Robotern spielt räumliche Simulation eine zentrale Rolle
- Historisch war räumliche Intelligenz ebenfalls eine Triebkraft der Zivilisationsentwicklung
- Die Berechnung des Erdumfangs durch Eratosthenes, die Konstruktionsinnovation der Spinning Jenny und die Entdeckung der DNA-Struktur sind alles Ergebnisse räumlichen Denkens
- Die KI hat zwar bei visueller Erkennung und Generierung Fortschritte gemacht, doch räumliche Konsistenz beim Verständnis von Distanz, Richtung und physikalischen Gesetzen ist weiterhin unzureichend
- Selbst moderne multimodale Modelle zeigen schwache Leistungen bei Objektrotation, Labyrinth-Navigation und physikalischer Vorhersage
- Diese Grenzen schränken Anwendungen in der realen Welt wie Robotiksteuerung, autonomes Fahren und immersives Lernen ein
World Models: eine neue KI-Architektur zur Umsetzung räumlicher Intelligenz
- Um räumliche Intelligenz zu realisieren, braucht es komplexere World Models als LLMs
- Sie müssen die semantische, physikalische, geometrische und dynamische Komplexität realer und virtueller Welten integriert verstehen, erzeugen und mit ihnen interagieren
- Drei Kernfähigkeiten von World Models
- Generativ: Sie erzeugen Welten, die wahrnehmungsmäßig, geometrisch und physikalisch konsistent sind
- Sie simulieren reale oder virtuelle Räume und wahren dabei die Kontinuität zwischen aktuellem und vergangenem Zustand
- Multimodal: Sie verarbeiten verschiedene Eingaben wie Bilder, Videos, Text und Gesten integriert
- Dafür sind zugleich visuelle Genauigkeit und semantische Interpretationsfähigkeit erforderlich
- Interaktiv: Sie sagen den nächsten Zustand auf Basis eingegebener Handlungen voraus und generieren ihn
- Wenn ein Zielzustand vorgegeben ist, müssen sie auch die dazu passenden Weltveränderungen und Handlungen vorhersagen können
- Da sie physikalische Gesetze, geometrische Strukturen und Dynamik konsistent abbilden müssen, ist die technische Schwierigkeit deutlich höher als bei Sprachgenerierung
Forschung von World Labs und technische Herausforderungen
- World Labs wurde Anfang 2024 gegründet und forscht an World Models mit Fokus auf räumliche Intelligenz
- Zentrale Forschungsthemen
- Definition einer universellen Lernfunktion: Entwicklung eines Lernziels, das so einfach wie die „Next-Token-Prediction“ von LLMs ist und zugleich physikalische und geometrische Gesetze widerspiegelt
- Großskalige Trainingsdaten: Nutzung mehrerer Quellen wie Internetbilder und -videos, synthetische Daten sowie Tiefen- und haptische Informationen
- Neue Modellarchitekturen: Forschung zu Tokenisierung und Speicherstrukturen auf Basis von 3D- und 4D-Wahrnehmung
- Beispiel: RTFM (Real-Time Frame-based Model) nutzt räumliche Frames als Speicher, um Echtzeitgenerierung und Konsistenz zu erhalten
- Das frühe Ergebnis Marble erzeugt und erhält konsistente 3D-Umgebungen aus mehreren Eingaben und wurde einigen Nutzern bereits demonstriert
- Eine spätere öffentliche Veröffentlichung ist geplant
Anwendungsfelder räumlicher Intelligenz
Kreativität und Content-Produktion
- Marble bietet Filmschaffenden, Game-Designern und Architekten die Möglichkeit, vollständig erkundbare 3D-Welten zu erzeugen
- Verschiedene Szenen und Blickwinkel lassen sich ohne Budget- oder geografische Einschränkungen erproben
- So entstehen immersive Erfahrungen für Storytelling, Kunst, Bildung und Design
- Durch räumliches Narrative Design lässt sich der Visualisierungsprozess in Architektur-, Industrie- und Modedesign verkürzen
- Mit der Ausweitung immersiver Erlebnisse auf Basis von VR und XR können auch einzelne Kreative ihre eigenen Welten aufbauen
Robotik
- Ein Engpass beim Lernen von Robotern ist der Mangel an Trainingsdaten; World Models können das ausgleichen
- Sie verringern die Lücke zwischen Simulation und Realität und ermöglichen Lernen in unterschiedlichsten Umgebungen
- Für die Umsetzung menschenzentrierter kollaborativer Roboter ist räumliche Intelligenz unverzichtbar
- Ziel ist die Entwicklung von Robotern, die in Laboren oder Haushalten menschliche Ziele und Handlungen verstehen und kooperativ darauf eingehen
- Sie können auch zum Aufbau von Trainingsumgebungen und Benchmarks für Robotern unterschiedlichster Bauformen genutzt werden — von Nanobots über Soft Robots bis zu Robotern für die Tiefsee oder den Weltraum
Wissenschaft, Medizin und Bildung
- Wissenschaftliche Forschung: Mehrdimensionale Simulationen beschleunigen Experimente und senken Rechenkosten etwa in der Klima- oder Materialforschung
- Medizin: Der Einsatz räumlich intelligenter KI wächst bei Wirkstoffsuche, Bilddiagnostik und Patientenmonitoring
- Bildung: Komplexe Konzepte lassen sich visualisieren, und es entstehen personalisierte immersive Lernumgebungen
- Lernende können Zellstrukturen oder historische Ereignisse erkunden, Fachkräfte ihre Fähigkeiten in realitätsnahen Simulationen trainieren
Vision einer menschenzentrierten KI-Entwicklung
- Ziel der KI-Entwicklung ist die Erweiterung menschlicher Fähigkeiten, nicht ihr Ersatz
- Die Entwicklung sollte Kreativität, Produktivität, Verbundenheit und Lebenszufriedenheit steigern
- Räumliche Intelligenz wird als Technologie vorgestellt, die menschliche Vorstellungskraft, Fürsorge und Entdeckungsfähigkeit erweitert
- Um diese Vision zu verwirklichen, ist die Zusammenarbeit des gesamten KI-Ökosystems nötig — von Forschenden über Unternehmen bis hin zu politischen Entscheidungsträgern
Fazit
- KI hat die Gesellschaft bereits umfassend verändert, doch räumliche Intelligenz wird als nächste Innovationsstufe beschrieben
- Mit World Models wird die Entwicklung räumlich intelligenter Maschinen möglich, die harmonisch mit der realen Welt interagieren
- Das gilt als technologischer Wendepunkt, der menschliche Kernaktivitäten wie Krankheitsforschung, Storytelling und Fürsorge verbessert
- So wie die Evolution menschlicher Intelligenz mit räumlicher Intelligenz begann, könnte auch die Vollendung der KI in räumlicher Intelligenz liegen
1 Kommentare
Hacker-News-Kommentare
Beim Lesen des Artikels wurde mir nicht klar, was sie eigentlich verstehen
In dem Text steckt kaum substanzieller Inhalt, im Grunde nur: „Wir sammeln räumliche Daten wie ImageNet“
Menschen, die räumliche Intelligenz erforschen, kommen meist eher aus den Neurowissenschaften
In meiner Übersichtsarbeit habe ich erläutert, dass entorhinal cortex, grid cell und Koordinatentransformationen der Schlüssel sein könnten
Alle Tiere transformieren in Echtzeit Koordinaten, um sich in der Welt zu orientieren, und der Mensch verfügt darunter über die meisten Koordinatenrepräsentationen
Intelligenz auf menschlichem Niveau heißt für mich zu wissen, wann und wie man Bezugssysteme transformiert, um nützliche Informationen zu gewinnen
Der Text entstand noch vor dem LLM-Boom, aber ich halte diese Richtung weiterhin für richtig
Das führte zu Arbeiten an Kollisionserkennung, physikbasierter Animation, dem Lösen nichtlinearer Gleichungen und beinbasierter Fortbewegung in rauem Gelände, aber es war keine KI
Heute setzt man enorme Rechenleistung ein und hofft, dass Lernsysteme selbst eine interne Repräsentation der räumlichen Welt finden
Robotisches Gehen ist inzwischen ziemlich gut, aber Manipulation in unstrukturierten Umgebungen ist immer noch miserabel
Selbst im Vergleich zu Videos aus McCarthys Stanford-Labor in den 1960ern ist der Unterschied nicht groß
Früher dachte ich, wir müssten erst Intelligenz auf Maus- oder Eichhörnchenniveau erreichen, bevor wir an menschliches Niveau denken können, daher überrascht mich, dass abstrakte KI zuerst kam
In letzter Zeit finde ich Forschung zur Videogenerierung, bei der nach kurzen Clips die nächste Szene vorhergesagt wird, besonders interessant
Der Kern von common sense ist für mich genau die Fähigkeit, in kurzer Zeit vorherzusagen, „was als Nächstes passiert“
Dazu ist auch diese Pressemitteilung zum Nobelpreis lesenswert
Zu viele VC-Schlagwörter wie „transform“, „revolutionize“, „next frontier“ und „North Star“ untergraben das Vertrauen
2018 in Nature: "Vector-based navigation using grid-like representations in artificial agents",
2024 in Nature: "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
sowie DeepMinds grid-cell-Simulation sind ebenfalls sehenswert
In den Neurowissenschaften wird räumliche Wahrnehmung schon seit ziemlich langer Zeit erforscht
Biologische Systeme direkt zu kopieren scheitert fast immer
CNNs waren vom Gehirn inspiriert, unterscheiden sich strukturell aber deutlich, und LLMs ähneln dem menschlichen Gehirn kaum
Die funktionale Ähnlichkeit von LLMs stammt nicht aus der Nachahmung der Hirnstruktur, sondern aus dem Trainingsprozess
Das ist letztlich nur ein Simulationssystem, das in einer engen virtuellen Welt funktioniert
Solche Systeme helfen kaum dabei, die komplexe Dynamik der realen Welt zu lernen
Ein Modell der virtuellen Welt ist nur ein vereinfachter Spezialfall eines Modells der physischen Welt, und ich sehe keinen Beleg dafür, dass dieses Unternehmen bei räumlicher Intelligenz echte Fortschritte erzielt hat
Ich hatte kürzlich ein erstaunliches Erlebnis damit, agentic coding auf CAD anzuwenden
Ich musste einem 3D-Druckmodell ein Gewinde hinzufügen und habe den Agenten mithilfe von Computergeometrie das Modell „spüren“ lassen
Ich habe den Radius einer Kugel über das gesamte Modell konvolviert, um die Position eines Ports zu finden und dort das Gewinde hinzuzufügen
Nach ein paar Versuchen hat es funktioniert, und diese Erfahrung hat mir gezeigt, dass ein Modell eine Art „taktiles Empfinden“ braucht
Am Ende musste das 3D-Modell als Code implementiert sein, damit es überprüfbar ist
Ich habe mit OpenSCAD experimentiert, aber den aktuellen Modellen fehlt noch common sense für Formverbindungen
Mit mehr codebasierten CAD-Datensätzen würde das deutlich nützlicher werden
Andernfalls braucht man am Ende wohl doch physiksimulationsbasiertes Lernen
Es entsteht schnell eine Mehrdeutigkeit auf dem Niveau von „Stell das nicht dahin, sondern dorthin“
Genie 3 hat das von ihr genannte Ziel, also ein steuerbares Weltmodell mit konsistenten physikalischen Gesetzen, bereits in gewissem Maß erreicht
Das Schwestermodell Veo 3 zeigt auch Fähigkeiten zur Lösung räumlicher Probleme
Genie und Veo kommen ihrer Vision viel näher als World Labs
Dass der Artikel Googles Modelle überhaupt nicht erwähnt, lässt ihn wie einen PR-Text für das eigene Unternehmen wirken
Siehe DeepMind Gemini Robotics ER
Heutige KI lernt nur aus dem Web und nicht aus Interaktion mit Menschen
Menschen lernen über lebenslangen Kontext und Erinnerung, aber bei KI verschwindet dieser Kontext, sobald das Gespräch endet
Mit einem personalisierten großen Kontextspeicher würde sie viel wertvoller werden
Bei bisherigen Verfahren tritt beim Nachtrainieren catastrophic forgetting auf, während Nested Learning das System in viele kleine Modelle aufteilt, damit beim Retraining andere Teile nicht beschädigt werden
Unser räumliches Verständnis ist so gewaltig wie eine Quantensimulation im Maßstab des Universums
Demgegenüber können wir heute vollständig höchstens Dinge auf Atom- oder Zellebene simulieren
Beim Lesen dieses Artikels musste ich daran denken, dass das erste Beispiel dafür, dass der Mensch der Natur „vorausgedacht“ hat, das Rad war
Die Natur ist uneben, aber der Mensch hat flache Straßen gebaut, um das Rollen zu ermöglichen
Ein weiteres Beispiel für wissenschaftlichen und technischen Fortschritt ist, dass Musterintuition über Generationen weitergegeben werden kann
Ich weiß nicht, ob „Superintelligenz“ außer in Form von Geschwindigkeit möglich ist, aber die Fähigkeit zum dreidimensionalen Denken wird wesentlich dafür sein, dass KI über Mensch und Natur hinausgeht
So wie Blutgefäße Nährstoffe und Signale transportieren, transportieren Straßen Ressourcen
Vielleicht hat die Natur diese Organisationsfähigkeit nur auf die Ebene von Arten ausgeweitet, und die Grundlage für die Behauptung, der Mensch stehe über der Natur, ist schwach
Menschliche Kognition ist ein Bauwerk, das auf räumlicher Intelligenz errichtet wurde
Sie besteht nicht nur aus abstraktem Denken, sondern aus integrierter Erfahrung auf Basis von Sinneswahrnehmung
Evolution hat Generalisierung nicht durch ein symbolisches Gehirn, sondern durch Verschmelzung der Sinne erreicht
Intelligenz entsteht nicht aus Algorithmen, sondern aus kohärenter Harmonie zwischen den Sinnen
Die Vollständigkeit der Sinneswahrnehmung ist der richtige Weg nach vorn
Ich verfolge diesen Blogbeitrag zum Stand des räumlichen Schlussfolgerns bei LLMs
Das Fazit ist … es liegt noch ein weiter Weg vor uns
Spatial tokens können hilfreich sein, sind aber nicht zwingend notwendig
Viele physikalische Probleme lassen sich immer noch mit Papier und Stift lösen
Es ist erstaunlich, dass sich ein 512×512-Bild mit 85 Tokens und Video mit 263 Tokens pro Sekunde darstellen lässt
Das wirkt wie ein neues Gleichgewichtsproblem zwischen Speicher und Embedding
Wie bei der Frage „Kannst du einen Apfel im Kopf rotieren lassen?“ würden räumliche Embeddings ein intuitives Verständnis von Dynamik ermöglichen
Auch unser Team bei FlyShirley erforscht diesen Bereich mit Pilotentrainingssimulationen und plant, Fei-Feis Modell auszuprobieren
Da videobasiertes Lernen und Schlussfolgern gewaltige Rechenressourcen erfordern,
ist fraglich, ob dieser Ansatz für Agenten-Assistenten (Coding, Marketing, Terminplanung usw.) in der Praxis wirklich hilfreich ist
Ich denke eher, dass er im Bereich Robotik eine günstigere Rechenstruktur haben wird