- Die Robotikbranche zog 2025 mit 40,7 Mrd. US-Dollar so viele Investitionen wie nie zuvor an, ein Plus von 74% gegenüber dem Vorjahr. Damit entfielen 9% des gesamten Venture-Kapitals auf den Sektor, der sich neben AI-Software als investitionsführendes Feld etabliert hat
- Physical/physische AI ist die Schlüsseltechnologie, die es Robotern ermöglicht, aus Daten statt aus vorprogrammierten Regeln zu lernen und in der physischen Welt zu operieren
- Anders als Sprachmodelle benötigen Physical-AI-Modelle echte Roboterdaten, wodurch sich eine frühe Chance zur Kontrolle des Marktes ergibt
- In 10 Kategorien von Physical-AI-Modellen konkurrieren mehr als 70 Unternehmen in den Bereichen Daten & Simulation, Modellansätze, Foundation Models und Observability
- Die Zusammenarbeit mehrerer Roboter bleibt die zentrale ungelöste Aufgabe von Physical AI; das Unternehmen, das dies zuerst löst, dürfte die industrielle Skalierung autonomer Roboterflotten anführen
Zentrale Erkenntnisse
- Proprietäre Trainingsdaten sind der zentrale Wettbewerbsvorteil von Physical AI, weshalb große Tech-Unternehmen per Übernahmen versuchen, sich den Datenzugang zu sichern
- Nvidia übernahm im März 2025 den Anbieter synthetischer Daten Gretel für mehr als 320 Mio. US-Dollar
- Meta investierte 14,8 Mrd. US-Dollar in Form einer Beteiligung an Scale, einem Anbieter für Dateninfrastruktur und Modellentwicklung
- OpenAI versuchte zur Sicherung von Trainingsdaten die Übernahme von Medal, doch Medal startete stattdessen General Intuition, das mit diesen Daten Modelle aufbaut
- Unternehmen mit proprietären Trainingsdaten können bessere Modelle entwickeln, während Wettbewerber auf lizenzierten Zugang angewiesen sind
- Der frühe Zugriff auf vielfältige, hochwertige Trainingsdaten ist entscheidend, um kommerzielle Skalierung zu erreichen
- World Models ermöglichen Robotern autonome Vorhersagen und Planung und schaffen damit Fähigkeiten, die große Sprachmodelle (LLMs) nicht erreichen
- Die Investitionen in World Models stiegen von 1,4 Mrd. US-Dollar im Jahr 2024 auf 6,9 Mrd. US-Dollar im Jahr 2025
- Unternehmen in diesem Bereich erreichen einen durchschnittlichen Mosaic-Score von 722 (oberste 3% des Gesamtmarkts)
- Für den Erfolg sind hochwertige Trainingsdaten aus kontrollierten Umgebungen und enge Partnerschaften mit Hardware-Herstellern erforderlich
- Multi-Robot Collaboration bleibt die zentrale ungelöste Aufgabe von Physical AI
- US-Unternehmen sammelten in 17 Deals mehr als 17 Mrd. US-Dollar ein
- Chinesische Unternehmen sammelten in 15 Deals 416 Mio. US-Dollar ein
- In beiden Regionen liegt der Fokus fast vollständig auf den Fähigkeiten einzelner Roboter; nur wenige Unternehmen bauen die nötige Orchestration Layer auf, damit unterschiedliche Robotertypen zusammenarbeiten können
- Wer das Kollaborationsproblem zuerst löst, könnte die industrielle Skalierung autonomer Roboterflotten kontrollieren
Überblick über die Kategorien
-
Daten & Simulation
- Sie bilden die Grundlage des Robotertrainings: Roboter benötigen große Mengen an Trainingsdaten, doch die Erfassung realer Daten ist langsam und teuer
- Der Bereich besteht aus drei Teilmärkten:
- Synthetische Trainingsdaten — Robotik: Tools zur Erzeugung synthetischer Datensätze wie Bilder, Sensordaten und 3D-Szenen ohne teure reale Erfassung
- Anbieter von Roboterdemonstrationsdaten: Unternehmen, die reale Daten wie Teleoperationsdaten, Bewegungsbahnen und Videos für Imitation Learning erfassen
- Robotik-Simulationsplattformen: Virtuelle Umgebungen zum Trainieren, Testen und Validieren von Robotern vor dem physischen Einsatz
- Datenknappheit ist der wichtigste Engpass von Physical AI, da Zugang zu realen Trainingsdaten wegen Kosten- und Verfügbarkeitsproblemen schwierig ist
- Der durchschnittliche Mosaic-Score dieser Märkte liegt bei rund 600 (obere Hälfte beim Marktmomentum)
- 50% der Unternehmen haben die Deployment-Phase erreicht, was zeigt, dass die Dateninfrastruktur für Physical AI über die Forschung hinaus in die kommerzielle Umsetzbarkeit hineinreift
- Viele Unternehmen stützen sich auf synthetische Daten und Simulationen, wobei Nvidia den Markt anführt
- Allerdings reichen synthetische Daten allein nicht aus; für verlässliches Modelltraining bleiben echte Roboterdaten entscheidend
- Scale erhielt 16,4 Mrd. US-Dollar und rangiert beim Mosaic-Score in den obersten 1%
- Scale verbindet die Erzeugung synthetischer Daten mit der Erfassung realer Daten, darunter menschliche Teleoperation von Robotern und Sensordaten aus physischen Umgebungen, und erweitert so sein Data-Labeling-Geschäft in Richtung Modellentwicklung
- Aufstrebende Unternehmen suchen neue Datenquellen, um den bestehenden Datenmangel zu überwinden
- General Intuition sammelte 134 Mio. US-Dollar ein, um Modelle mit Gameplay-Videos zu trainieren, die auf Robotersysteme anwendbar sind
- micro1 erhielt bei einer Bewertung von 500 Mio. US-Dollar 35 Mio. US-Dollar und baut mit Videos menschlicher Interaktionen den weltweit größten Robotik-Trainingsdatensatz auf
- Ohne proprietäre Datensätze oder Simulationsplattformen riskieren Robotikunternehmen, Lizenzen von Marktführern beziehen zu müssen oder bei zentralen Datentypen wie Berührung, Druck und physischer Bewegung zurückzufallen
-
Zugang zu Modellen
- Sie verleihen Robotern Sehvermögen, Schlussfolgerungsfähigkeit und Handlungskompetenz, wobei jedes Modell auf anderen Modellen aufbaut
- Sie ermöglichen die Anpassung an neue Aufgaben statt starrer Programmierung
- Der Bereich besteht aus drei Teilmärkten:
- Entwickler von Vision-Language-Modellen (VLMs): multimodale Modelle, die visuelles Verständnis und natürliche Sprache kombinieren und als Wahrnehmungsschicht des Roboters dienen
- Entwickler von Vision-Language-Action-Modellen (VLAs): AI-Systeme auf Basis von VLMs, die visuelle Wahrnehmung, Sprachverständnis und Motorsteuerung verbinden und Befehle direkt in physische Aktionen umsetzen
- Entwickler von World-Model-AI: Modelle, die Veränderungen in der Umgebung simulieren, um räumliche Beziehungen, physikalische Gesetze und Kausalität vorherzusagen
- Physical AI wandelt die Robotik von hart codierter Programmierung hin zu flexiblen, aufgabenadaptiven Systemen, wobei VLA-Modelle sich als führende Architektur herausbilden
- Führende humanoide Robotikunternehmen wie Figure, 1X und Galbot bauen proprietäre VLA-Modelle auf
- Big-Tech-Unternehmen wie Nvidia und Meta entwickeln Modelle zur kommerziellen Lizenzierung an Roboterhersteller
- World Models könnten die eigentliche Innovation bringen, indem sie prädiktives Schlussfolgern hinzufügen
- Unternehmen wie World Labs und Runway entwickeln World Models
- Während VLAs auf unmittelbare Eingaben reagieren, simulieren World Models, wie sich Umgebungen im Zeitverlauf verändern
- Sie ermöglichen Robotern, Ergebnisse vorherzusagen, mehrstufige Handlungen zu planen und sich von Fehlern zu erholen
-
Foundation Models
- Sie verbinden Daten und Architekturen zu vortrainierter Roboterintelligenz, die Wahrnehmung, Schlussfolgern und Handeln ermöglicht
- Einige sind allgemeine Modelle für Manipulation, andere spezialisiert
- Entwickler können diese Intelligenz lizenzieren und anwenden, statt sie von Grund auf selbst zu entwickeln
- Der Bereich besteht aus drei Teilmärkten:
- Entwickler von Roboter-Foundation-Models: allgemeine Modelle, die Robotern auf unterschiedlicher Hardware beim Sehen, Denken und Bewegen helfen
- Entwickler von Foundation Models für autonomes Fahren: mit groß angelegten Fahrdatensätzen trainierte Modelle, die Wahrnehmung, Vorhersage, Planung und Steuerung integrieren und bestehende autonome Systeme für Robotaxis, Trucking und Lieferung ersetzen
- Entwickler von Modellen für Multi-Robot Collaboration: Multi-Agenten-Algorithmen, die Aufgabenverteilung, Kollisionsvermeidung und dezentrale Entscheidungen steuern, damit Roboterschwärme kooperieren können
- Der Markt für Foundation Models ist äußerst dynamisch
- Große US-Tech-Unternehmen (Microsoft, Google, Amazon) und führende chinesische Unternehmen (Huawei, Baidu) konkurrieren mit stark beachteten Startups wie DeepSeek und Physical Intelligence
- Viele Unternehmen arbeiten an mehreren Typen von Foundation Models gleichzeitig
- Trainingsdaten aus einer Domäne können zur Leistungsverbesserung von Modellen in anderen Domänen beitragen
- Nvidia ist das einzige Unternehmen, das in allen drei Kategorien von Foundation Models aktiv ist, und positioniert sich damit als Infrastruktur des gesamten Physical-AI-Stacks
- Multi-Robot Collaboration ist die nächste Frontier
- Etwa Szenarien, in denen in Lagerhäusern Humanoide, autonome mobile Roboter und autonome Gabelstapler gemeinsam arbeiten
- Die Zusammenarbeit verschiedener Robotertypen erfordert eine Orchestration Layer, die Aufgaben, Ressourcen und Kollisionsvermeidung ohne zentrale Steuerung verwaltet
- Nur wenige Startups (Field AI, Intrinsic) und Big-Tech-Unternehmen verfolgen diesen Ansatz
- Der Großteil der Arbeit befindet sich noch im Forschungsstadium statt im kommerziellen Einsatz
- Unternehmen mit proprietären Modellen können durch Differenzierung und vertikale Integration höhere Margen erzielen
- Unternehmen, die Third-Party-AI lizenzieren, profitieren möglicherweise von niedrigeren Kosten durch die Kommodifizierung von Modellen, konkurrieren dann aber eher über Deployment-Geschwindigkeit und Integrationsqualität als über Kerntechnologie
-
Observability
- Sie erfasst, was passiert, wenn Roboter in Produktion laufen, und schließt die Lücke zwischen Entwicklung im Labor und realem Deployment
- Observability-Plattformen für Robotik: Plattformen zum Überwachen, Debuggen und Optimieren von Robotern in Entwicklung und Produktion
- Wenn Roboter ausfallen oder sich unerwartet verhalten, können Ingenieure Vorfälle nachstellen, die Ursache analysieren und Korrekturen ausrollen
- Reale Edge Cases fließen zurück in Simulation und Training, verbessern Modelle und steigern die Leistung
- Foxglove und Formant sind typische Beispiele: Sie verfolgen Performance, analysieren Ausfälle und speisen Erkenntnisse aus dem Deployment zurück in Trainingsdatensätze, Simulationen und Modelle
- Unternehmen mit starker Observability können aus Fehlern lernen und ihre Modelle schnell verbessern
- Unerwartete Situationen werden so in einen Lernvorteil verwandelt und werden zum entscheidenden Merkmal, das produktionsreife Systeme von Laborprototypen unterscheidet
Noch keine Kommentare.