Nvidia Cosmos 3

(developer.nvidia.com)

1 Punkte von GN⁺ 2026-06-02 | 1 Kommentare | Auf WhatsApp teilen

NVIDIA Cosmos 3 ist ein einziges offenes Foundation-Modell für Physical AI, das physikalisches Schlussfolgern, Weltgenerierung und Aktionsgenerierung in einem Modell vereint
Die Mixture-of-Transformers-Architektur trennt einen Reasoner Tower und einen Generator Tower und verbindet so Eingabeverständnis mit physikalisch bewusster generativer Ausgabe, wodurch der Bedarf sinkt, mehrere Modelle und Inferenz-Pipelines zu orchestrieren
Cosmos 3 Nano zielt mit 16B Parametern auf Inferenz auf Workstation-Niveau, während Cosmos 3 Super mit 64B Parametern auf Rechenzentrums-Deployments und die Erzeugung hochwertiger synthetischer Daten abzielt
NVIDIA veröffentlicht Modell-Checkpoints, Training-Skripte, Deployment-Tools, sechs synthetische Datensätze und NIM-Microservices, um Domain-Adaption für Robotik, autonomes Fahren und Lagerautomatisierung zu unterstützen
In HUE und mehreren öffentlichen Benchmarks wird Cosmos 3 hinsichtlich Physical-AI-Schlussfolgern, Generierungsqualität und Domain-Performance bewertet; Super und Nano führen dabei jeweils die 32B- bzw. 8B-Tiers von VANTAGE-Bench an

Zentrale Veränderungen in Cosmos 3

NVIDIA Cosmos 3 ist ein Frontier-Foundation-Modell, das dafür entwickelt wurde, dass Physical-AI-Systeme wie Roboter, autonome Fahrzeuge und smarte Räume die Welt verstehen, die nächste Situation vorhersagen und auf bestimmte Umgebungen, Formen und Aufgaben abgestimmte Aktionen erzeugen
Frühere Cosmos-Releases trennten Weltgenerierung, Physikverständnis und kontrollierte Szenengenerierung auf unterschiedliche Modelle und Workflows auf, während Cosmos 3 dies in einem einzigen Modell zusammenführt
Dieses Release stellt Modell-Checkpoints auf Hugging Face, Code auf GitHub, öffentliche Datensätze, Skripte für weiteres Training sowie Cosmos-NIM-Microservices für Deployments auf NVIDIA-GPUs bereit

Zwei-Tower-Architektur

Cosmos 3 verwendet eine Mixture-of-Transformers-Architektur mit zwei Towers im Zentrum
Der Reasoner Tower ist ein Vision-Language-Modell (VLM), das multimodale Beobachtungen wie Bilder, Videos und Text interpretiert, Eingaben autoregressiv verarbeitet und Bewegung, Objektinteraktionen sowie physikalischen Kontext versteht
Der Generator Tower erzeugt auf Basis des Verständnisses des Reasoner Tower physikalisch bewusste Video- und Aktionsausgaben in einem diffusionsbasierten Prozess
Der Reasoner kann eigenständig aufgerufen werden, der Generator aktiviert für gesteuerte Generierung jedoch immer beide Towers
Diese Architektur verarbeitet Schlussfolgerungs- und Generierungsaufgaben in einem einzigen Modell und reduziert so die Orchestrierung zwischen mehreren Modellen und Inferenz-Pipelines

Wahl der Modellgröße

Cosmos 3 Nano ist ein kompaktes Modell mit 16B Parametern und für effiziente Inferenz optimiert
Nano ist dafür ausgelegt, Echtzeit-Inferenz für Robotik und Physical-AI-Anwendungen auf Workstation-Klasse-Compute wie der NVIDIA RTX PRO 6000 GPU auszuführen
Cosmos 3 Super ist ein Modell mit 64B Parametern und auf maximale Qualität und Fähigkeiten ausgelegt
Super liefert die höchsten Benchmark-Werte und zielt auf Rechenzentrums-Deployments auf Basis von NVIDIA Hopper- und NVIDIA Blackwell-GPUs
Super eignet sich für großskalige synthetische Datengenerierung und anspruchsvolle Workloads für physikalisches Schlussfolgern

Öffentliche Datensätze

NVIDIA veröffentlicht zusammen mit Cosmos 3 sechs Datensätze für Synthetic Data Generation (SDG) auf Hugging Face
Diese Datensätze können für weiteres Training von Cosmos 3 und anderen Modellen genutzt werden und decken Robotik, physikalische Simulation, räumliches Schlussfolgern, menschliche Bewegungen, Fahren und Lagerumgebungen ab
Öffentliche Datensätze:

HUE-Evaluierungsframework

NVIDIA Cosmos Human Evaluation (HUE) bewertet die Qualität des Cosmos-3-Generators in repräsentativen Domain-Aufgaben
Da aktuelle Videogenerierungsmodelle auf bestehenden automatischen Leaderboards zunehmend gesättigt sind, reichen die Punktunterschiede zwischen Releases oft nicht mehr für aussagekräftige Vergleiche aus
HUE ersetzt subjektive Bewertung durch objektive Faktenprüfung und ermöglicht feinere Vergleiche zwischen Spitzenmodellen
HUE zerlegt generierte Videos in einzelne Ja/Nein-Fragen zu Fakten entlang von vier Dimensionen
- semantische Ausrichtung
- physikalische Gesetze
- geometrisches Schlussfolgern
- visuelle Integrität
Die Fragen decken sieben Physical-AI-Domains ab, darunter Robotik, autonome Fahrzeuge und Physik
Die Fragen werden durch eine VLM-Pipeline erzeugt, von menschlichen Expertinnen und Experten verfeinert und als Open Source auf Hugging Face veröffentlicht

Benchmark-Ergebnisse

Cosmos 3 wurde in mehreren Benchmark-Familien evaluiert, die Physical-AI-Schlussfolgern, Generierungsqualität und domänenspezifische Performance abdecken
In Benchmarks zum Schlussfolgern führen Cosmos 3 Super und Cosmos 3 Nano jeweils die 32B- und 8B-Tiers von VANTAGE-Bench an
VANTAGE-Bench ist der erste öffentliche Benchmark zur Bewertung von Vision-Language-Modellen anhand realer Fixed-Camera-Videos aus Lagerhäusern, dem Verkehr und smarten Räumen
Traffic Anomaly Reasoning (TAR) ist ein neues Leaderboard zur Erkennung und zum Schlussfolgern über anomale Ereignisse in Verkehrsvideos und das offizielle Leaderboard von AI City Challenge 2026 Track 3
In Generierungsbenchmarks ist Cosmos 3 laut öffentlichen Leaderboards Open-Source-SOTA und führt bei PAI-Bench, R-Bench Physics-IQ und RoboLab
Bei Artificial Analysis wird Cosmos 3 als führendes Open-Source-Modell im Text to Image leaderboard und im Image to Video (no audio) leaderboard bewertet
R-Bench bewertet videobasierte Weltmodelle für Robotik-Videogenerierung und nutzt Teilmetriken wie strukturelle Konsistenz, physikalische Plausibilität und Ausführungsqualität
PAI-Bench bewertet Videoverständnis und Videogenerierung in Domains wie Robotik, autonomes Fahren und physikalischem Alltagswissen
Physics-IQ testet, ob generative Videomodelle nur visuelle Realitätsnähe erreichen oder tatsächliche physikalische Prinzipien verstehen
RoboLab ist ein Simulationsbenchmark zur Bewertung von Robotik-Policies für Aufgabenverallgemeinerung

Trainingsrezepte und Domain-Adaption

Das Cosmos-3-Release geht über Modell-Checkpoints hinaus und veröffentlicht Code, Konfigurationen und Workflows, damit sich das Modell an neue Domains, Formen und Datensätze anpassen lässt
Supervised Fine-Tuning (SFT) unterstützt Entwicklerinnen und Entwickler dabei, Cosmos-3-Modelle an eigene Daten anzupassen
Die veröffentlichten Rezepte decken weiteres Training für Vision-Generierung auf benutzerdefinierten Video-Datensätzen sowie aktionszentrierte Rezepte für Robotik- und Physical-AI-Workflows ab
Entwicklerinnen und Entwickler können Cosmos 3 auf Ziel-Domains wie Robotik, autonomes Fahren und Lagerautomatisierung zuschneiden
Code und Konfigurationen für weiteres Training sind auf GitHub verfügbar
Aktionsbezogenes weiteres Training passt Cosmos 3 für action-aware Physical-AI-Anwendungen wie forward dynamics, inverse dynamics und policy generation an
In der Robotik unterstützt es Workflows, die zukünftige Beobachtungen bedingt auf Roboteraktionen generieren, Aktionen hinter beobachteten Demonstrationen erschließen und Aktionssequenzen aus aktuellen Beobachtungen und Task-Prompts vorhersagen

Deployment mit NIM-Microservices

Cosmos-3-Modelle werden für optimierte Produktions-Deployments auch als NVIDIA NIM microservices bereitgestellt
NIM-Microservices paketieren Modelle mit optimierten Inferenz-Runtimes, um hohe Leistung zu erzielen, ohne die Serving-Infrastruktur selbst feinabstimmen zu müssen
In Inferenz-Workflows sind NIM-Microservices einfacher zu nutzen als das Cosmos-3-GitHub-Repository, während sich das GitHub-Repository besser für Workflows mit weiterem Training eignet
Cosmos 3 Reasoner NIM stellt derzeit die Schlussfolgerungsfunktionen der Cosmos-3-Modelle bereit
NIM unterstützt die Wahl zwischen BF16-, FP8- und NVFP4-quantisierten Checkpoints
Die NVFP4-Quantisierung senkt die numerische Präzision des Modells von BF16 auf 4-Bit-Floating-Point und ermöglicht so bis zu 2x schnellere Inferenz
Der Serving-Stack von Cosmos 3 Reasoner NIM basiert auf vLLM, einer Open-Source-Inferenz-Engine für effizientes LLM-Serving mit Techniken wie continuous batching, paged attention und tensor parallelism
Cosmos 3 Nano kann mit vLLM-omni und NVIDIA Dynamo ausgeführt werden
Efficient Video Sampling (EVS) beschleunigt Cosmos Reason NIM, indem es die Anzahl der Video-Tokens reduziert, die dem VLM während der Inferenz zugeführt werden
EVS behält pro Frame die einzigartigsten Chunks bei und beschneidet den Rest; je kleiner die GPU, desto stärker fällt der Nutzen dieser Technik tendenziell aus

Ausführung

Um den Container zu beziehen und das Cosmos-3-Modell von NGC herunterzuladen, wird ein NVIDIA-NGC-API-Schlüssel benötigt
Ein Beispiel zum Ausführen von Cosmos 3 Nano Reasoner NIM sieht wie folgt aus
Um Cosmos 3 Super Reasoner NIM zu verwenden, wird NIM_MODEL_SIZE=super angegeben

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

API-Nutzung und weitere Informationen finden sich in der Dokumentation

Ressourcen für den Einstieg

Checkpoints für Cosmos 3 Nano und Super können auf Hugging Face heruntergeladen werden
Beispiele und Code finden sich auf Cosmos 3 GitHub
Die Cosmos 3 Nano Reasoner model experience und die Cosmos 3 Nano model experience können ausprobiert werden
Über GitHub und Discord kann man sich am Cosmos-Ökosystem beteiligen, Issues eröffnen und Beiträge leisten

1 Kommentare

GN⁺ 2026-06-02

Hacker-News-Kommentare

Es handelt sich um ein hochmodernes Open-Source-Modell zur Bild- und Videogenerierung
Es liegt vor anderen Modellen, ist mit 64 Milliarden Parametern aber zu groß, um auf den meisten privaten Rechnern zu laufen
Trotzdem ist es beeindruckend, wenn man bedenkt, dass ein künstlich erzeugter Trainingsdatensatz verwendet wurde
Nano Banana 1 schlägt es, aber mit Nano Banana 2, Seedance2 oder Grok Imagine kann es noch nicht konkurrieren
- Es ist bitter ironisch, dass ich bei den vorhersehbaren Produktankündigungen großer Konzerne inzwischen nicht einmal mehr klicke und direkt zu den Kommentaren gehe
  Bei Produktankündigungen von Unternehmen wird oft nicht einmal die grundlegende Tatsache klar benannt, die schon in den ersten neun Wörtern vermittelt werden sollte
  Es gibt allerdings eine fehlende Nuance: Das hier ist ein World Model, das darauf ausgelegt ist, für das Training von Robotik- und autonomen Fahr-AIs nützlich zu sein
  Deshalb ist es eher kein direkter Konkurrent zu Nano Banana oder Seedance; Bild- und Videogenerierung sind zwar möglich, aber der Kern liegt darin, physikalische Daten und Harnesses für AI-Trainingsszenarien bereitzustellen
- Bild- und Videogenerierungsmodelle sind als Reality Check leichter zu verstehen, um einzuschätzen, wie nah lokale Modelle an Frontier-Modellen sind
„Cosmos 3 Nano ist eine kompakte Version mit 16 Milliarden Parametern und für effiziente Inferenz optimiert. Es wurde entwickelt, um Echtzeit-Robotik-Inferenz und Physical-AI-Anwendungen in Workstation-Klasse-Rechenumgebungen wie der NVIDIA RTX PRO 6000 GPU auszuführen.“
Ich freue mich schon auf den Tag, an dem ich das auf einer Workstation-GPU für über 10.000 Dollar testen kann, für die man so ein teures Setup braucht
- Ich habe eine GPU, aber keinen Roboter. Wie viel Minimal-funktionsfähiger Roboter braucht man, um damit herumzuspielen?
- Die gute Nachricht ist, dass Nvidia dir sicher gern ein neues RTX-Spark-Laptop verkauft, auf dem das laufen kann
Diese Veröffentlichung integriert Funktionen in eine Mixture-of-Transformers-(MoT)-Architektur, die um zwei Towers herum aufgebaut ist
Der Reasoning-Tower ist ein Vision-Language-Model (VLM) und fungiert als „Gehirn“, das die Welt versteht, bevor Generierung stattfindet
Der Generierungs-Tower erzeugt zukünftige Beobachtungen und Aktionssequenzen und produziert per Diffusionsprozess physikbewusste Video- und Aktionsausgaben, konditioniert auf das Verständnis des Reasoning-Towers
Dieser Ansatz spricht den Ingenieursinstinkt an, Kompromisse zwischen Modellarchitekturen zu optimieren und auszubalancieren, um die Vorteile beider zu vereinen
Aber nach meinem Verständnis der Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) ist das langfristig genau die falsche Richtung
Ich verlinke den eigentlichen Text zur Bitter Lesson, weil ich finde, dass dieses Konzept oft missverstanden wird oder ich zumindest mit der Art seiner Verwendung im Diskurs nicht einverstanden bin
Der Kern ist die historische Beobachtung, dass AI-Forscher versucht haben, Wissen in Agenten einzubauen; kurzfristig hilft das und gibt Forschern ein befriedigendes Gefühl, langfristig führt es aber zu Stagnation und blockiert Fortschritt, während schließlich der entgegengesetzte Ansatz – Skalierung von Rechenleistung durch Suche und Lernen – den Durchbruch bringt
Diese Architektur fühlt sich für mich wie ein Weg an, Wissen in einen Agenten einzubauen, das kurzfristig hilft und langfristig wahrscheinlich stagniert
Natürlich können darauf aufbauend interessante Lernprozesse oder Outputs entstehen, aber ich glaube nicht, dass man aus diesem Ansatz noch viel mehr herausholen kann
- Für mich fühlt es sich eher genau andersherum an
  Die MoT-Architektur wirkt wie das Ideal, das die Bitter Lesson impliziert. Alle Datenformen wie Audio, Bilder, Text, Aktionen und Video werden in einen gemeinsamen latenten Raum eingebracht und das Modell darf sie selbst organisieren
  Es gibt dabei nur minimale Struktur, um unterschiedliche Anforderungen und Ausgabeformate zu behandeln, etwa autoregressive Verarbeitung für Sequenzmodellierung und Vorhersage sowie Diffusionsverarbeitung für Generierung
- Das ist im Wesentlichen eher Dekompression und inzwischen ziemlich Standard
  Ziel ist es, aus der intern komprimierten Repräsentation Daten in einer für Menschen nutzbaren Form herauszuholen
  Technisch könnte man auch auf Pixel- oder Zeichenebene schlussfolgern, aber das ist im Allgemeinen viel teurer
  Man kann die gesamte Technik als Methode verstehen, Computer schneller arbeiten zu lassen
  Das sieht man auch bei Qwen talker oder den meisten multimodalen Projektoren
- Dieses Modell hat allerdings einen breiteren Domänenumfang als ein Text-LLM
  Es akzeptiert auch Videoeingaben und ist damit noch breiter als frühere Omni-Modelle
  Die Architektur ist ungewöhnlich, aber ich würde nicht sagen, dass sie extremer getunt ist als die offenen Modelle, die täglich erscheinen
Das Beispielvideo zur Lagersicherheit ist wirklich komisch. Die Leute reagieren überhaupt nicht
- Auch das Autovideo ist seltsam. Der kreuzende Van fährt eindeutig bei Rot über die Kreuzung
  Auch der große Schatten des Laternenpfahls über der Kreuzung ergibt überhaupt keinen Sinn
Das Mixture-of-Transformers-Design mit zwei Towers, bei dem ein autoregressiver Reasoner Eingaben an einen Diffusionsgenerator gibt, ist eine interessante architektonische Wette
Es ist schwer zu verstehen, was das eigentlich macht
Ist „zukünftige Beobachtungen und Aktionssequenzen erzeugen“ einfach nur eine komplizierte Umschreibung für Videogenerierung?
- Nein. Der Unterschied liegt im Aktions-Teil
  Dieses World Model wird zum Beispiel auf Roboteraktionen konditioniert, wodurch zwei Dinge möglich werden, die reine Videogenerierung nicht kann
  Es kann zukünftige Frames vorhersagen, die auf eine bestimmte Aktion folgen, und bei demselben Start-Frame entsteht bei anderer Aktion eine andere Zukunft
  Außerdem kann es rückwärts verwendet werden, um aus beobachteten Frames die dahinterliegenden Aktionen zu erschließen oder die nötigen Aktionen auszugeben, um ein Ziel zu erreichen
  Die Ausgabe sind dann keine Videoframes, sondern Motorbefehle
- So wie ich es verstehe, meint es sowohl Computer Vision als auch Videogenerierung und verbindet beides zu einem ziemlich robusten World Model
  Eines der gehosteten Beispiele führt nur klassische Videoanalyse durch, ein anderes sagt aus einem statischen Bild ein Video voraus, also betreibt Videogenerierung
- Wenn man sich vorstellt, was das ist und warum es so formuliert wurde, dann braucht die AI-Robotik wohl eine Art hyperrealistische Game Engine mit besserer Physik als unverformbare Starrkörperphysik à la Unity oder Unreal
  Gleichzeitig muss sie im Gegensatz zu technischen Finite-Elemente-Simulationen deutlich schneller als Echtzeit laufen, und dieses Modell scheint auf genau diesen Bedarf zu zielen
- Man kann sich einfach die Tabelle der unterstützten Formate ansehen. Es kann Bild, Video, Text und Aktion als Eingabe annehmen und Bild, Video, Text und Aktion ausgeben
- Es kann zur Erzeugung synthetischer Daten für das Training von Physical AI wie Robotern, Autos und Drohnen verwendet werden
  Man kann die Welt aus der Ich-Perspektive simulieren und Trainingsdaten erzeugen, ohne Roboter in die Wohnungen von Menschen schicken zu müssen
Die meisten ausgewählten Beispiele wirken nicht besonders gut
Es fühlt sich an wie eine seltsame Mischung aus schlechter Game Engine und AI-Krempel
Es ist schwer vorstellbar, dass so etwas gute Trainingsdaten für echte Anwendungen liefern soll
- Diese Demos sehen ehrlich gesagt ziemlich gut aus
  Und dass diese und ähnliche Techniken von allen führenden Herstellern autonomer Fahrzeuge in großem Maßstab eingesetzt werden, ist objektiv eine Tatsache; induktiv betrachtet ist das also für diesen Anwendungsfall gut genug
  Ich arbeite nicht an Cosmos, aber ich arbeite derzeit bei Nvidia an oberflächlich ähnlicher interner, nicht öffentlicher Technologie, die von vielen führenden Unternehmen genutzt wird
  Meiner Meinung nach ist die Qualität ähnlich
  Ein Teil der zugehörigen öffentlichen Forschung ist hier zu finden
  https://github.com/nv-tlabs/3dgrut/
  https://github.com/NVIDIA/harmonizer
  https://github.com/NVIDIA/instant-nurec
  https://github.com/nvidia/ncore
  Nvidia integriert in zumindest einen Teil meiner Arbeit auch Gsplat und trägt Upstream-Beiträge dazu bei
  https://github.com/nerfstudio-project/gsplat
Es ist lustig, dass die Website trotz all dieser technologischen Fortschritte schon mit hoher Last zu kämpfen hat

Nvidia Cosmos 3

Zentrale Veränderungen in Cosmos 3

Zwei-Tower-Architektur

Wahl der Modellgröße

Öffentliche Datensätze

HUE-Evaluierungsframework

Benchmark-Ergebnisse

Trainingsrezepte und Domain-Adaption

Deployment mit NIM-Microservices

Ausführung

Ressourcen für den Einstieg

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare