Marktübersicht zu Physical-AI-Modellen: Die Hintergründe des Wettbewerbs um Roboterintelligenz

(cbinsights.com)

7 Punkte von GN⁺ 2026-01-30 | Noch keine Kommentare. | Auf WhatsApp teilen

Die Robotikbranche zog 2025 mit 40,7 Mrd. US-Dollar so viele Investitionen wie nie zuvor an, ein Plus von 74% gegenüber dem Vorjahr. Damit entfielen 9% des gesamten Venture-Kapitals auf den Sektor, der sich neben AI-Software als investitionsführendes Feld etabliert hat
Physical/physische AI ist die Schlüsseltechnologie, die es Robotern ermöglicht, aus Daten statt aus vorprogrammierten Regeln zu lernen und in der physischen Welt zu operieren
Anders als Sprachmodelle benötigen Physical-AI-Modelle echte Roboterdaten, wodurch sich eine frühe Chance zur Kontrolle des Marktes ergibt
In 10 Kategorien von Physical-AI-Modellen konkurrieren mehr als 70 Unternehmen in den Bereichen Daten & Simulation, Modellansätze, Foundation Models und Observability
Die Zusammenarbeit mehrerer Roboter bleibt die zentrale ungelöste Aufgabe von Physical AI; das Unternehmen, das dies zuerst löst, dürfte die industrielle Skalierung autonomer Roboterflotten anführen

Zentrale Erkenntnisse

Proprietäre Trainingsdaten sind der zentrale Wettbewerbsvorteil von Physical AI, weshalb große Tech-Unternehmen per Übernahmen versuchen, sich den Datenzugang zu sichern
- Nvidia übernahm im März 2025 den Anbieter synthetischer Daten Gretel für mehr als 320 Mio. US-Dollar
- Meta investierte 14,8 Mrd. US-Dollar in Form einer Beteiligung an Scale, einem Anbieter für Dateninfrastruktur und Modellentwicklung
- OpenAI versuchte zur Sicherung von Trainingsdaten die Übernahme von Medal, doch Medal startete stattdessen General Intuition, das mit diesen Daten Modelle aufbaut
- Unternehmen mit proprietären Trainingsdaten können bessere Modelle entwickeln, während Wettbewerber auf lizenzierten Zugang angewiesen sind
- Der frühe Zugriff auf vielfältige, hochwertige Trainingsdaten ist entscheidend, um kommerzielle Skalierung zu erreichen
World Models ermöglichen Robotern autonome Vorhersagen und Planung und schaffen damit Fähigkeiten, die große Sprachmodelle (LLMs) nicht erreichen
- Die Investitionen in World Models stiegen von 1,4 Mrd. US-Dollar im Jahr 2024 auf 6,9 Mrd. US-Dollar im Jahr 2025
- Unternehmen in diesem Bereich erreichen einen durchschnittlichen Mosaic-Score von 722 (oberste 3% des Gesamtmarkts)
- Für den Erfolg sind hochwertige Trainingsdaten aus kontrollierten Umgebungen und enge Partnerschaften mit Hardware-Herstellern erforderlich
Multi-Robot Collaboration bleibt die zentrale ungelöste Aufgabe von Physical AI
- US-Unternehmen sammelten in 17 Deals mehr als 17 Mrd. US-Dollar ein
- Chinesische Unternehmen sammelten in 15 Deals 416 Mio. US-Dollar ein
- In beiden Regionen liegt der Fokus fast vollständig auf den Fähigkeiten einzelner Roboter; nur wenige Unternehmen bauen die nötige Orchestration Layer auf, damit unterschiedliche Robotertypen zusammenarbeiten können
- Wer das Kollaborationsproblem zuerst löst, könnte die industrielle Skalierung autonomer Roboterflotten kontrollieren

Überblick über die Kategorien

Daten & Simulation
- Sie bilden die Grundlage des Robotertrainings: Roboter benötigen große Mengen an Trainingsdaten, doch die Erfassung realer Daten ist langsam und teuer
- Der Bereich besteht aus drei Teilmärkten:
  - Synthetische Trainingsdaten — Robotik: Tools zur Erzeugung synthetischer Datensätze wie Bilder, Sensordaten und 3D-Szenen ohne teure reale Erfassung
  - Anbieter von Roboterdemonstrationsdaten: Unternehmen, die reale Daten wie Teleoperationsdaten, Bewegungsbahnen und Videos für Imitation Learning erfassen
  - Robotik-Simulationsplattformen: Virtuelle Umgebungen zum Trainieren, Testen und Validieren von Robotern vor dem physischen Einsatz
- Datenknappheit ist der wichtigste Engpass von Physical AI, da Zugang zu realen Trainingsdaten wegen Kosten- und Verfügbarkeitsproblemen schwierig ist
  - Der durchschnittliche Mosaic-Score dieser Märkte liegt bei rund 600 (obere Hälfte beim Marktmomentum)
  - 50% der Unternehmen haben die Deployment-Phase erreicht, was zeigt, dass die Dateninfrastruktur für Physical AI über die Forschung hinaus in die kommerzielle Umsetzbarkeit hineinreift
- Viele Unternehmen stützen sich auf synthetische Daten und Simulationen, wobei Nvidia den Markt anführt
  - Allerdings reichen synthetische Daten allein nicht aus; für verlässliches Modelltraining bleiben echte Roboterdaten entscheidend
  - Scale erhielt 16,4 Mrd. US-Dollar und rangiert beim Mosaic-Score in den obersten 1%
  - Scale verbindet die Erzeugung synthetischer Daten mit der Erfassung realer Daten, darunter menschliche Teleoperation von Robotern und Sensordaten aus physischen Umgebungen, und erweitert so sein Data-Labeling-Geschäft in Richtung Modellentwicklung
- Aufstrebende Unternehmen suchen neue Datenquellen, um den bestehenden Datenmangel zu überwinden
  - General Intuition sammelte 134 Mio. US-Dollar ein, um Modelle mit Gameplay-Videos zu trainieren, die auf Robotersysteme anwendbar sind
  - micro1 erhielt bei einer Bewertung von 500 Mio. US-Dollar 35 Mio. US-Dollar und baut mit Videos menschlicher Interaktionen den weltweit größten Robotik-Trainingsdatensatz auf
- Ohne proprietäre Datensätze oder Simulationsplattformen riskieren Robotikunternehmen, Lizenzen von Marktführern beziehen zu müssen oder bei zentralen Datentypen wie Berührung, Druck und physischer Bewegung zurückzufallen
Zugang zu Modellen
- Sie verleihen Robotern Sehvermögen, Schlussfolgerungsfähigkeit und Handlungskompetenz, wobei jedes Modell auf anderen Modellen aufbaut
- Sie ermöglichen die Anpassung an neue Aufgaben statt starrer Programmierung
- Der Bereich besteht aus drei Teilmärkten:
  - Entwickler von Vision-Language-Modellen (VLMs): multimodale Modelle, die visuelles Verständnis und natürliche Sprache kombinieren und als Wahrnehmungsschicht des Roboters dienen
  - Entwickler von Vision-Language-Action-Modellen (VLAs): AI-Systeme auf Basis von VLMs, die visuelle Wahrnehmung, Sprachverständnis und Motorsteuerung verbinden und Befehle direkt in physische Aktionen umsetzen
  - Entwickler von World-Model-AI: Modelle, die Veränderungen in der Umgebung simulieren, um räumliche Beziehungen, physikalische Gesetze und Kausalität vorherzusagen
- Physical AI wandelt die Robotik von hart codierter Programmierung hin zu flexiblen, aufgabenadaptiven Systemen, wobei VLA-Modelle sich als führende Architektur herausbilden
  - Führende humanoide Robotikunternehmen wie Figure, 1X und Galbot bauen proprietäre VLA-Modelle auf
  - Big-Tech-Unternehmen wie Nvidia und Meta entwickeln Modelle zur kommerziellen Lizenzierung an Roboterhersteller
- World Models könnten die eigentliche Innovation bringen, indem sie prädiktives Schlussfolgern hinzufügen
  - Unternehmen wie World Labs und Runway entwickeln World Models
  - Während VLAs auf unmittelbare Eingaben reagieren, simulieren World Models, wie sich Umgebungen im Zeitverlauf verändern
  - Sie ermöglichen Robotern, Ergebnisse vorherzusagen, mehrstufige Handlungen zu planen und sich von Fehlern zu erholen
Foundation Models
- Sie verbinden Daten und Architekturen zu vortrainierter Roboterintelligenz, die Wahrnehmung, Schlussfolgern und Handeln ermöglicht
- Einige sind allgemeine Modelle für Manipulation, andere spezialisiert
- Entwickler können diese Intelligenz lizenzieren und anwenden, statt sie von Grund auf selbst zu entwickeln
- Der Bereich besteht aus drei Teilmärkten:
  - Entwickler von Roboter-Foundation-Models: allgemeine Modelle, die Robotern auf unterschiedlicher Hardware beim Sehen, Denken und Bewegen helfen
  - Entwickler von Foundation Models für autonomes Fahren: mit groß angelegten Fahrdatensätzen trainierte Modelle, die Wahrnehmung, Vorhersage, Planung und Steuerung integrieren und bestehende autonome Systeme für Robotaxis, Trucking und Lieferung ersetzen
  - Entwickler von Modellen für Multi-Robot Collaboration: Multi-Agenten-Algorithmen, die Aufgabenverteilung, Kollisionsvermeidung und dezentrale Entscheidungen steuern, damit Roboterschwärme kooperieren können
- Der Markt für Foundation Models ist äußerst dynamisch
  - Große US-Tech-Unternehmen (Microsoft, Google, Amazon) und führende chinesische Unternehmen (Huawei, Baidu) konkurrieren mit stark beachteten Startups wie DeepSeek und Physical Intelligence
- Viele Unternehmen arbeiten an mehreren Typen von Foundation Models gleichzeitig
  - Trainingsdaten aus einer Domäne können zur Leistungsverbesserung von Modellen in anderen Domänen beitragen
  - Nvidia ist das einzige Unternehmen, das in allen drei Kategorien von Foundation Models aktiv ist, und positioniert sich damit als Infrastruktur des gesamten Physical-AI-Stacks
- Multi-Robot Collaboration ist die nächste Frontier
  - Etwa Szenarien, in denen in Lagerhäusern Humanoide, autonome mobile Roboter und autonome Gabelstapler gemeinsam arbeiten
  - Die Zusammenarbeit verschiedener Robotertypen erfordert eine Orchestration Layer, die Aufgaben, Ressourcen und Kollisionsvermeidung ohne zentrale Steuerung verwaltet
  - Nur wenige Startups (Field AI, Intrinsic) und Big-Tech-Unternehmen verfolgen diesen Ansatz
  - Der Großteil der Arbeit befindet sich noch im Forschungsstadium statt im kommerziellen Einsatz
- Unternehmen mit proprietären Modellen können durch Differenzierung und vertikale Integration höhere Margen erzielen
- Unternehmen, die Third-Party-AI lizenzieren, profitieren möglicherweise von niedrigeren Kosten durch die Kommodifizierung von Modellen, konkurrieren dann aber eher über Deployment-Geschwindigkeit und Integrationsqualität als über Kerntechnologie
Observability
- Sie erfasst, was passiert, wenn Roboter in Produktion laufen, und schließt die Lücke zwischen Entwicklung im Labor und realem Deployment
- Observability-Plattformen für Robotik: Plattformen zum Überwachen, Debuggen und Optimieren von Robotern in Entwicklung und Produktion
- Wenn Roboter ausfallen oder sich unerwartet verhalten, können Ingenieure Vorfälle nachstellen, die Ursache analysieren und Korrekturen ausrollen
- Reale Edge Cases fließen zurück in Simulation und Training, verbessern Modelle und steigern die Leistung
- Foxglove und Formant sind typische Beispiele: Sie verfolgen Performance, analysieren Ausfälle und speisen Erkenntnisse aus dem Deployment zurück in Trainingsdatensätze, Simulationen und Modelle
- Unternehmen mit starker Observability können aus Fehlern lernen und ihre Modelle schnell verbessern
- Unerwartete Situationen werden so in einen Lernvorteil verwandelt und werden zum entscheidenden Merkmal, das produktionsreife Systeme von Laborprototypen unterscheidet

Marktübersicht zu Physical-AI-Modellen: Die Hintergründe des Wettbewerbs um Roboterintelligenz

Zentrale Erkenntnisse

Überblick über die Kategorien

Daten & Simulation

Zugang zu Modellen

Foundation Models

Observability

Verwandte Beiträge

Noch keine Kommentare.