- NVIDIA Cosmos 3 ist ein einziges offenes Foundation-Modell für Physical AI, das physikalisches Schlussfolgern, Weltgenerierung und Aktionsgenerierung in einem Modell vereint
- Die Mixture-of-Transformers-Architektur trennt einen Reasoner Tower und einen Generator Tower und verbindet so Eingabeverständnis mit physikalisch bewusster generativer Ausgabe, wodurch der Bedarf sinkt, mehrere Modelle und Inferenz-Pipelines zu orchestrieren
- Cosmos 3 Nano zielt mit 16B Parametern auf Inferenz auf Workstation-Niveau, während Cosmos 3 Super mit 64B Parametern auf Rechenzentrums-Deployments und die Erzeugung hochwertiger synthetischer Daten abzielt
- NVIDIA veröffentlicht Modell-Checkpoints, Training-Skripte, Deployment-Tools, sechs synthetische Datensätze und NIM-Microservices, um Domain-Adaption für Robotik, autonomes Fahren und Lagerautomatisierung zu unterstützen
- In HUE und mehreren öffentlichen Benchmarks wird Cosmos 3 hinsichtlich Physical-AI-Schlussfolgern, Generierungsqualität und Domain-Performance bewertet; Super und Nano führen dabei jeweils die 32B- bzw. 8B-Tiers von VANTAGE-Bench an
Zentrale Veränderungen in Cosmos 3
- NVIDIA Cosmos 3 ist ein Frontier-Foundation-Modell, das dafür entwickelt wurde, dass Physical-AI-Systeme wie Roboter, autonome Fahrzeuge und smarte Räume die Welt verstehen, die nächste Situation vorhersagen und auf bestimmte Umgebungen, Formen und Aufgaben abgestimmte Aktionen erzeugen
- Frühere Cosmos-Releases trennten Weltgenerierung, Physikverständnis und kontrollierte Szenengenerierung auf unterschiedliche Modelle und Workflows auf, während Cosmos 3 dies in einem einzigen Modell zusammenführt
- Dieses Release stellt Modell-Checkpoints auf Hugging Face, Code auf GitHub, öffentliche Datensätze, Skripte für weiteres Training sowie Cosmos-NIM-Microservices für Deployments auf NVIDIA-GPUs bereit
Zwei-Tower-Architektur
- Cosmos 3 verwendet eine Mixture-of-Transformers-Architektur mit zwei Towers im Zentrum
- Der Reasoner Tower ist ein Vision-Language-Modell (VLM), das multimodale Beobachtungen wie Bilder, Videos und Text interpretiert, Eingaben autoregressiv verarbeitet und Bewegung, Objektinteraktionen sowie physikalischen Kontext versteht
- Der Generator Tower erzeugt auf Basis des Verständnisses des Reasoner Tower physikalisch bewusste Video- und Aktionsausgaben in einem diffusionsbasierten Prozess
- Der Reasoner kann eigenständig aufgerufen werden, der Generator aktiviert für gesteuerte Generierung jedoch immer beide Towers
- Diese Architektur verarbeitet Schlussfolgerungs- und Generierungsaufgaben in einem einzigen Modell und reduziert so die Orchestrierung zwischen mehreren Modellen und Inferenz-Pipelines
Wahl der Modellgröße
- Cosmos 3 Nano ist ein kompaktes Modell mit 16B Parametern und für effiziente Inferenz optimiert
- Nano ist dafür ausgelegt, Echtzeit-Inferenz für Robotik und Physical-AI-Anwendungen auf Workstation-Klasse-Compute wie der NVIDIA RTX PRO 6000 GPU auszuführen
- Cosmos 3 Super ist ein Modell mit 64B Parametern und auf maximale Qualität und Fähigkeiten ausgelegt
- Super liefert die höchsten Benchmark-Werte und zielt auf Rechenzentrums-Deployments auf Basis von NVIDIA Hopper- und NVIDIA Blackwell-GPUs
- Super eignet sich für großskalige synthetische Datengenerierung und anspruchsvolle Workloads für physikalisches Schlussfolgern
Öffentliche Datensätze
- NVIDIA veröffentlicht zusammen mit Cosmos 3 sechs Datensätze für Synthetic Data Generation (SDG) auf Hugging Face
- Diese Datensätze können für weiteres Training von Cosmos 3 und anderen Modellen genutzt werden und decken Robotik, physikalische Simulation, räumliches Schlussfolgern, menschliche Bewegungen, Fahren und Lagerumgebungen ab
- Öffentliche Datensätze:
HUE-Evaluierungsframework
- NVIDIA Cosmos Human Evaluation (HUE) bewertet die Qualität des Cosmos-3-Generators in repräsentativen Domain-Aufgaben
- Da aktuelle Videogenerierungsmodelle auf bestehenden automatischen Leaderboards zunehmend gesättigt sind, reichen die Punktunterschiede zwischen Releases oft nicht mehr für aussagekräftige Vergleiche aus
- HUE ersetzt subjektive Bewertung durch objektive Faktenprüfung und ermöglicht feinere Vergleiche zwischen Spitzenmodellen
- HUE zerlegt generierte Videos in einzelne Ja/Nein-Fragen zu Fakten entlang von vier Dimensionen
- semantische Ausrichtung
- physikalische Gesetze
- geometrisches Schlussfolgern
- visuelle Integrität
- Die Fragen decken sieben Physical-AI-Domains ab, darunter Robotik, autonome Fahrzeuge und Physik
- Die Fragen werden durch eine VLM-Pipeline erzeugt, von menschlichen Expertinnen und Experten verfeinert und als Open Source auf Hugging Face veröffentlicht
Benchmark-Ergebnisse
- Cosmos 3 wurde in mehreren Benchmark-Familien evaluiert, die Physical-AI-Schlussfolgern, Generierungsqualität und domänenspezifische Performance abdecken
- In Benchmarks zum Schlussfolgern führen Cosmos 3 Super und Cosmos 3 Nano jeweils die 32B- und 8B-Tiers von VANTAGE-Bench an
- VANTAGE-Bench ist der erste öffentliche Benchmark zur Bewertung von Vision-Language-Modellen anhand realer Fixed-Camera-Videos aus Lagerhäusern, dem Verkehr und smarten Räumen
- Traffic Anomaly Reasoning (TAR) ist ein neues Leaderboard zur Erkennung und zum Schlussfolgern über anomale Ereignisse in Verkehrsvideos und das offizielle Leaderboard von AI City Challenge 2026 Track 3
- In Generierungsbenchmarks ist Cosmos 3 laut öffentlichen Leaderboards Open-Source-SOTA und führt bei PAI-Bench, R-Bench Physics-IQ und RoboLab
- Bei Artificial Analysis wird Cosmos 3 als führendes Open-Source-Modell im Text to Image leaderboard und im Image to Video (no audio) leaderboard bewertet
- R-Bench bewertet videobasierte Weltmodelle für Robotik-Videogenerierung und nutzt Teilmetriken wie strukturelle Konsistenz, physikalische Plausibilität und Ausführungsqualität
- PAI-Bench bewertet Videoverständnis und Videogenerierung in Domains wie Robotik, autonomes Fahren und physikalischem Alltagswissen
- Physics-IQ testet, ob generative Videomodelle nur visuelle Realitätsnähe erreichen oder tatsächliche physikalische Prinzipien verstehen
- RoboLab ist ein Simulationsbenchmark zur Bewertung von Robotik-Policies für Aufgabenverallgemeinerung
Trainingsrezepte und Domain-Adaption
- Das Cosmos-3-Release geht über Modell-Checkpoints hinaus und veröffentlicht Code, Konfigurationen und Workflows, damit sich das Modell an neue Domains, Formen und Datensätze anpassen lässt
- Supervised Fine-Tuning (SFT) unterstützt Entwicklerinnen und Entwickler dabei, Cosmos-3-Modelle an eigene Daten anzupassen
- Die veröffentlichten Rezepte decken weiteres Training für Vision-Generierung auf benutzerdefinierten Video-Datensätzen sowie aktionszentrierte Rezepte für Robotik- und Physical-AI-Workflows ab
- Entwicklerinnen und Entwickler können Cosmos 3 auf Ziel-Domains wie Robotik, autonomes Fahren und Lagerautomatisierung zuschneiden
- Code und Konfigurationen für weiteres Training sind auf GitHub verfügbar
- Aktionsbezogenes weiteres Training passt Cosmos 3 für action-aware Physical-AI-Anwendungen wie forward dynamics, inverse dynamics und policy generation an
- In der Robotik unterstützt es Workflows, die zukünftige Beobachtungen bedingt auf Roboteraktionen generieren, Aktionen hinter beobachteten Demonstrationen erschließen und Aktionssequenzen aus aktuellen Beobachtungen und Task-Prompts vorhersagen
Deployment mit NIM-Microservices
- Cosmos-3-Modelle werden für optimierte Produktions-Deployments auch als NVIDIA NIM microservices bereitgestellt
- NIM-Microservices paketieren Modelle mit optimierten Inferenz-Runtimes, um hohe Leistung zu erzielen, ohne die Serving-Infrastruktur selbst feinabstimmen zu müssen
- In Inferenz-Workflows sind NIM-Microservices einfacher zu nutzen als das Cosmos-3-GitHub-Repository, während sich das GitHub-Repository besser für Workflows mit weiterem Training eignet
- Cosmos 3 Reasoner NIM stellt derzeit die Schlussfolgerungsfunktionen der Cosmos-3-Modelle bereit
- NIM unterstützt die Wahl zwischen BF16-, FP8- und NVFP4-quantisierten Checkpoints
- Die NVFP4-Quantisierung senkt die numerische Präzision des Modells von BF16 auf 4-Bit-Floating-Point und ermöglicht so bis zu 2x schnellere Inferenz
- Der Serving-Stack von Cosmos 3 Reasoner NIM basiert auf vLLM, einer Open-Source-Inferenz-Engine für effizientes LLM-Serving mit Techniken wie continuous batching, paged attention und tensor parallelism
- Cosmos 3 Nano kann mit vLLM-omni und NVIDIA Dynamo ausgeführt werden
- Efficient Video Sampling (EVS) beschleunigt Cosmos Reason NIM, indem es die Anzahl der Video-Tokens reduziert, die dem VLM während der Inferenz zugeführt werden
- EVS behält pro Frame die einzigartigsten Chunks bei und beschneidet den Rest; je kleiner die GPU, desto stärker fällt der Nutzen dieser Technik tendenziell aus
Ausführung
- Um den Container zu beziehen und das Cosmos-3-Modell von NGC herunterzuladen, wird ein NVIDIA-NGC-API-Schlüssel benötigt
- Ein Beispiel zum Ausführen von Cosmos 3 Nano Reasoner NIM sieht wie folgt aus
- Um Cosmos 3 Super Reasoner NIM zu verwenden, wird
NIM_MODEL_SIZE=super angegeben
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- API-Nutzung und weitere Informationen finden sich in der Dokumentation
Ressourcen für den Einstieg
1 Kommentare
Hacker-News-Kommentare
Es handelt sich um ein hochmodernes Open-Source-Modell zur Bild- und Videogenerierung
Es liegt vor anderen Modellen, ist mit 64 Milliarden Parametern aber zu groß, um auf den meisten privaten Rechnern zu laufen
Trotzdem ist es beeindruckend, wenn man bedenkt, dass ein künstlich erzeugter Trainingsdatensatz verwendet wurde
Nano Banana 1 schlägt es, aber mit Nano Banana 2, Seedance2 oder Grok Imagine kann es noch nicht konkurrieren
Bei Produktankündigungen von Unternehmen wird oft nicht einmal die grundlegende Tatsache klar benannt, die schon in den ersten neun Wörtern vermittelt werden sollte
Es gibt allerdings eine fehlende Nuance: Das hier ist ein World Model, das darauf ausgelegt ist, für das Training von Robotik- und autonomen Fahr-AIs nützlich zu sein
Deshalb ist es eher kein direkter Konkurrent zu Nano Banana oder Seedance; Bild- und Videogenerierung sind zwar möglich, aber der Kern liegt darin, physikalische Daten und Harnesses für AI-Trainingsszenarien bereitzustellen
„Cosmos 3 Nano ist eine kompakte Version mit 16 Milliarden Parametern und für effiziente Inferenz optimiert. Es wurde entwickelt, um Echtzeit-Robotik-Inferenz und Physical-AI-Anwendungen in Workstation-Klasse-Rechenumgebungen wie der NVIDIA RTX PRO 6000 GPU auszuführen.“
Ich freue mich schon auf den Tag, an dem ich das auf einer Workstation-GPU für über 10.000 Dollar testen kann, für die man so ein teures Setup braucht
Diese Veröffentlichung integriert Funktionen in eine Mixture-of-Transformers-(MoT)-Architektur, die um zwei Towers herum aufgebaut ist
Der Reasoning-Tower ist ein Vision-Language-Model (VLM) und fungiert als „Gehirn“, das die Welt versteht, bevor Generierung stattfindet
Der Generierungs-Tower erzeugt zukünftige Beobachtungen und Aktionssequenzen und produziert per Diffusionsprozess physikbewusste Video- und Aktionsausgaben, konditioniert auf das Verständnis des Reasoning-Towers
Dieser Ansatz spricht den Ingenieursinstinkt an, Kompromisse zwischen Modellarchitekturen zu optimieren und auszubalancieren, um die Vorteile beider zu vereinen
Aber nach meinem Verständnis der Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) ist das langfristig genau die falsche Richtung
Ich verlinke den eigentlichen Text zur Bitter Lesson, weil ich finde, dass dieses Konzept oft missverstanden wird oder ich zumindest mit der Art seiner Verwendung im Diskurs nicht einverstanden bin
Der Kern ist die historische Beobachtung, dass AI-Forscher versucht haben, Wissen in Agenten einzubauen; kurzfristig hilft das und gibt Forschern ein befriedigendes Gefühl, langfristig führt es aber zu Stagnation und blockiert Fortschritt, während schließlich der entgegengesetzte Ansatz – Skalierung von Rechenleistung durch Suche und Lernen – den Durchbruch bringt
Diese Architektur fühlt sich für mich wie ein Weg an, Wissen in einen Agenten einzubauen, das kurzfristig hilft und langfristig wahrscheinlich stagniert
Natürlich können darauf aufbauend interessante Lernprozesse oder Outputs entstehen, aber ich glaube nicht, dass man aus diesem Ansatz noch viel mehr herausholen kann
Die MoT-Architektur wirkt wie das Ideal, das die Bitter Lesson impliziert. Alle Datenformen wie Audio, Bilder, Text, Aktionen und Video werden in einen gemeinsamen latenten Raum eingebracht und das Modell darf sie selbst organisieren
Es gibt dabei nur minimale Struktur, um unterschiedliche Anforderungen und Ausgabeformate zu behandeln, etwa autoregressive Verarbeitung für Sequenzmodellierung und Vorhersage sowie Diffusionsverarbeitung für Generierung
Ziel ist es, aus der intern komprimierten Repräsentation Daten in einer für Menschen nutzbaren Form herauszuholen
Technisch könnte man auch auf Pixel- oder Zeichenebene schlussfolgern, aber das ist im Allgemeinen viel teurer
Man kann die gesamte Technik als Methode verstehen, Computer schneller arbeiten zu lassen
Das sieht man auch bei Qwen talker oder den meisten multimodalen Projektoren
Es akzeptiert auch Videoeingaben und ist damit noch breiter als frühere Omni-Modelle
Die Architektur ist ungewöhnlich, aber ich würde nicht sagen, dass sie extremer getunt ist als die offenen Modelle, die täglich erscheinen
Das Beispielvideo zur Lagersicherheit ist wirklich komisch. Die Leute reagieren überhaupt nicht
Auch der große Schatten des Laternenpfahls über der Kreuzung ergibt überhaupt keinen Sinn
Das Mixture-of-Transformers-Design mit zwei Towers, bei dem ein autoregressiver Reasoner Eingaben an einen Diffusionsgenerator gibt, ist eine interessante architektonische Wette
Es ist schwer zu verstehen, was das eigentlich macht
Ist „zukünftige Beobachtungen und Aktionssequenzen erzeugen“ einfach nur eine komplizierte Umschreibung für Videogenerierung?
Dieses World Model wird zum Beispiel auf Roboteraktionen konditioniert, wodurch zwei Dinge möglich werden, die reine Videogenerierung nicht kann
Es kann zukünftige Frames vorhersagen, die auf eine bestimmte Aktion folgen, und bei demselben Start-Frame entsteht bei anderer Aktion eine andere Zukunft
Außerdem kann es rückwärts verwendet werden, um aus beobachteten Frames die dahinterliegenden Aktionen zu erschließen oder die nötigen Aktionen auszugeben, um ein Ziel zu erreichen
Die Ausgabe sind dann keine Videoframes, sondern Motorbefehle
Eines der gehosteten Beispiele führt nur klassische Videoanalyse durch, ein anderes sagt aus einem statischen Bild ein Video voraus, also betreibt Videogenerierung
Gleichzeitig muss sie im Gegensatz zu technischen Finite-Elemente-Simulationen deutlich schneller als Echtzeit laufen, und dieses Modell scheint auf genau diesen Bedarf zu zielen
Man kann die Welt aus der Ich-Perspektive simulieren und Trainingsdaten erzeugen, ohne Roboter in die Wohnungen von Menschen schicken zu müssen
Die meisten ausgewählten Beispiele wirken nicht besonders gut
Es fühlt sich an wie eine seltsame Mischung aus schlechter Game Engine und AI-Krempel
Es ist schwer vorstellbar, dass so etwas gute Trainingsdaten für echte Anwendungen liefern soll
Und dass diese und ähnliche Techniken von allen führenden Herstellern autonomer Fahrzeuge in großem Maßstab eingesetzt werden, ist objektiv eine Tatsache; induktiv betrachtet ist das also für diesen Anwendungsfall gut genug
Ich arbeite nicht an Cosmos, aber ich arbeite derzeit bei Nvidia an oberflächlich ähnlicher interner, nicht öffentlicher Technologie, die von vielen führenden Unternehmen genutzt wird
Meiner Meinung nach ist die Qualität ähnlich
Ein Teil der zugehörigen öffentlichen Forschung ist hier zu finden
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
Nvidia integriert in zumindest einen Teil meiner Arbeit auch Gsplat und trägt Upstream-Beiträge dazu bei
https://github.com/nerfstudio-project/gsplat
Es ist lustig, dass die Website trotz all dieser technologischen Fortschritte schon mit hoher Last zu kämpfen hat