1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • NVIDIA Cosmos 3 ist ein einziges offenes Foundation-Modell für Physical AI, das physikalisches Schlussfolgern, Weltgenerierung und Aktionsgenerierung in einem Modell vereint
  • Die Mixture-of-Transformers-Architektur trennt einen Reasoner Tower und einen Generator Tower und verbindet so Eingabeverständnis mit physikalisch bewusster generativer Ausgabe, wodurch der Bedarf sinkt, mehrere Modelle und Inferenz-Pipelines zu orchestrieren
  • Cosmos 3 Nano zielt mit 16B Parametern auf Inferenz auf Workstation-Niveau, während Cosmos 3 Super mit 64B Parametern auf Rechenzentrums-Deployments und die Erzeugung hochwertiger synthetischer Daten abzielt
  • NVIDIA veröffentlicht Modell-Checkpoints, Training-Skripte, Deployment-Tools, sechs synthetische Datensätze und NIM-Microservices, um Domain-Adaption für Robotik, autonomes Fahren und Lagerautomatisierung zu unterstützen
  • In HUE und mehreren öffentlichen Benchmarks wird Cosmos 3 hinsichtlich Physical-AI-Schlussfolgern, Generierungsqualität und Domain-Performance bewertet; Super und Nano führen dabei jeweils die 32B- bzw. 8B-Tiers von VANTAGE-Bench an

Zentrale Veränderungen in Cosmos 3

  • NVIDIA Cosmos 3 ist ein Frontier-Foundation-Modell, das dafür entwickelt wurde, dass Physical-AI-Systeme wie Roboter, autonome Fahrzeuge und smarte Räume die Welt verstehen, die nächste Situation vorhersagen und auf bestimmte Umgebungen, Formen und Aufgaben abgestimmte Aktionen erzeugen
  • Frühere Cosmos-Releases trennten Weltgenerierung, Physikverständnis und kontrollierte Szenengenerierung auf unterschiedliche Modelle und Workflows auf, während Cosmos 3 dies in einem einzigen Modell zusammenführt
  • Dieses Release stellt Modell-Checkpoints auf Hugging Face, Code auf GitHub, öffentliche Datensätze, Skripte für weiteres Training sowie Cosmos-NIM-Microservices für Deployments auf NVIDIA-GPUs bereit

Zwei-Tower-Architektur

  • Cosmos 3 verwendet eine Mixture-of-Transformers-Architektur mit zwei Towers im Zentrum
  • Der Reasoner Tower ist ein Vision-Language-Modell (VLM), das multimodale Beobachtungen wie Bilder, Videos und Text interpretiert, Eingaben autoregressiv verarbeitet und Bewegung, Objektinteraktionen sowie physikalischen Kontext versteht
  • Der Generator Tower erzeugt auf Basis des Verständnisses des Reasoner Tower physikalisch bewusste Video- und Aktionsausgaben in einem diffusionsbasierten Prozess
  • Der Reasoner kann eigenständig aufgerufen werden, der Generator aktiviert für gesteuerte Generierung jedoch immer beide Towers
  • Diese Architektur verarbeitet Schlussfolgerungs- und Generierungsaufgaben in einem einzigen Modell und reduziert so die Orchestrierung zwischen mehreren Modellen und Inferenz-Pipelines

Wahl der Modellgröße

  • Cosmos 3 Nano ist ein kompaktes Modell mit 16B Parametern und für effiziente Inferenz optimiert
  • Nano ist dafür ausgelegt, Echtzeit-Inferenz für Robotik und Physical-AI-Anwendungen auf Workstation-Klasse-Compute wie der NVIDIA RTX PRO 6000 GPU auszuführen
  • Cosmos 3 Super ist ein Modell mit 64B Parametern und auf maximale Qualität und Fähigkeiten ausgelegt
  • Super liefert die höchsten Benchmark-Werte und zielt auf Rechenzentrums-Deployments auf Basis von NVIDIA Hopper- und NVIDIA Blackwell-GPUs
  • Super eignet sich für großskalige synthetische Datengenerierung und anspruchsvolle Workloads für physikalisches Schlussfolgern

Öffentliche Datensätze

HUE-Evaluierungsframework

  • NVIDIA Cosmos Human Evaluation (HUE) bewertet die Qualität des Cosmos-3-Generators in repräsentativen Domain-Aufgaben
  • Da aktuelle Videogenerierungsmodelle auf bestehenden automatischen Leaderboards zunehmend gesättigt sind, reichen die Punktunterschiede zwischen Releases oft nicht mehr für aussagekräftige Vergleiche aus
  • HUE ersetzt subjektive Bewertung durch objektive Faktenprüfung und ermöglicht feinere Vergleiche zwischen Spitzenmodellen
  • HUE zerlegt generierte Videos in einzelne Ja/Nein-Fragen zu Fakten entlang von vier Dimensionen
    • semantische Ausrichtung
    • physikalische Gesetze
    • geometrisches Schlussfolgern
    • visuelle Integrität
  • Die Fragen decken sieben Physical-AI-Domains ab, darunter Robotik, autonome Fahrzeuge und Physik
  • Die Fragen werden durch eine VLM-Pipeline erzeugt, von menschlichen Expertinnen und Experten verfeinert und als Open Source auf Hugging Face veröffentlicht

Benchmark-Ergebnisse

  • Cosmos 3 wurde in mehreren Benchmark-Familien evaluiert, die Physical-AI-Schlussfolgern, Generierungsqualität und domänenspezifische Performance abdecken
  • In Benchmarks zum Schlussfolgern führen Cosmos 3 Super und Cosmos 3 Nano jeweils die 32B- und 8B-Tiers von VANTAGE-Bench an
  • VANTAGE-Bench ist der erste öffentliche Benchmark zur Bewertung von Vision-Language-Modellen anhand realer Fixed-Camera-Videos aus Lagerhäusern, dem Verkehr und smarten Räumen
  • Traffic Anomaly Reasoning (TAR) ist ein neues Leaderboard zur Erkennung und zum Schlussfolgern über anomale Ereignisse in Verkehrsvideos und das offizielle Leaderboard von AI City Challenge 2026 Track 3
  • In Generierungsbenchmarks ist Cosmos 3 laut öffentlichen Leaderboards Open-Source-SOTA und führt bei PAI-Bench, R-Bench Physics-IQ und RoboLab
  • Bei Artificial Analysis wird Cosmos 3 als führendes Open-Source-Modell im Text to Image leaderboard und im Image to Video (no audio) leaderboard bewertet
  • R-Bench bewertet videobasierte Weltmodelle für Robotik-Videogenerierung und nutzt Teilmetriken wie strukturelle Konsistenz, physikalische Plausibilität und Ausführungsqualität
  • PAI-Bench bewertet Videoverständnis und Videogenerierung in Domains wie Robotik, autonomes Fahren und physikalischem Alltagswissen
  • Physics-IQ testet, ob generative Videomodelle nur visuelle Realitätsnähe erreichen oder tatsächliche physikalische Prinzipien verstehen
  • RoboLab ist ein Simulationsbenchmark zur Bewertung von Robotik-Policies für Aufgabenverallgemeinerung

Trainingsrezepte und Domain-Adaption

  • Das Cosmos-3-Release geht über Modell-Checkpoints hinaus und veröffentlicht Code, Konfigurationen und Workflows, damit sich das Modell an neue Domains, Formen und Datensätze anpassen lässt
  • Supervised Fine-Tuning (SFT) unterstützt Entwicklerinnen und Entwickler dabei, Cosmos-3-Modelle an eigene Daten anzupassen
  • Die veröffentlichten Rezepte decken weiteres Training für Vision-Generierung auf benutzerdefinierten Video-Datensätzen sowie aktionszentrierte Rezepte für Robotik- und Physical-AI-Workflows ab
  • Entwicklerinnen und Entwickler können Cosmos 3 auf Ziel-Domains wie Robotik, autonomes Fahren und Lagerautomatisierung zuschneiden
  • Code und Konfigurationen für weiteres Training sind auf GitHub verfügbar
  • Aktionsbezogenes weiteres Training passt Cosmos 3 für action-aware Physical-AI-Anwendungen wie forward dynamics, inverse dynamics und policy generation an
  • In der Robotik unterstützt es Workflows, die zukünftige Beobachtungen bedingt auf Roboteraktionen generieren, Aktionen hinter beobachteten Demonstrationen erschließen und Aktionssequenzen aus aktuellen Beobachtungen und Task-Prompts vorhersagen

Deployment mit NIM-Microservices

  • Cosmos-3-Modelle werden für optimierte Produktions-Deployments auch als NVIDIA NIM microservices bereitgestellt
  • NIM-Microservices paketieren Modelle mit optimierten Inferenz-Runtimes, um hohe Leistung zu erzielen, ohne die Serving-Infrastruktur selbst feinabstimmen zu müssen
  • In Inferenz-Workflows sind NIM-Microservices einfacher zu nutzen als das Cosmos-3-GitHub-Repository, während sich das GitHub-Repository besser für Workflows mit weiterem Training eignet
  • Cosmos 3 Reasoner NIM stellt derzeit die Schlussfolgerungsfunktionen der Cosmos-3-Modelle bereit
  • NIM unterstützt die Wahl zwischen BF16-, FP8- und NVFP4-quantisierten Checkpoints
  • Die NVFP4-Quantisierung senkt die numerische Präzision des Modells von BF16 auf 4-Bit-Floating-Point und ermöglicht so bis zu 2x schnellere Inferenz
  • Der Serving-Stack von Cosmos 3 Reasoner NIM basiert auf vLLM, einer Open-Source-Inferenz-Engine für effizientes LLM-Serving mit Techniken wie continuous batching, paged attention und tensor parallelism
  • Cosmos 3 Nano kann mit vLLM-omni und NVIDIA Dynamo ausgeführt werden
  • Efficient Video Sampling (EVS) beschleunigt Cosmos Reason NIM, indem es die Anzahl der Video-Tokens reduziert, die dem VLM während der Inferenz zugeführt werden
  • EVS behält pro Frame die einzigartigsten Chunks bei und beschneidet den Rest; je kleiner die GPU, desto stärker fällt der Nutzen dieser Technik tendenziell aus

Ausführung

  • Um den Container zu beziehen und das Cosmos-3-Modell von NGC herunterzuladen, wird ein NVIDIA-NGC-API-Schlüssel benötigt
  • Ein Beispiel zum Ausführen von Cosmos 3 Nano Reasoner NIM sieht wie folgt aus
  • Um Cosmos 3 Super Reasoner NIM zu verwenden, wird NIM_MODEL_SIZE=super angegeben
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
  • API-Nutzung und weitere Informationen finden sich in der Dokumentation

Ressourcen für den Einstieg

1 Kommentare

 
GN⁺ 3 시간 전
Hacker-News-Kommentare
  • Es handelt sich um ein hochmodernes Open-Source-Modell zur Bild- und Videogenerierung
    Es liegt vor anderen Modellen, ist mit 64 Milliarden Parametern aber zu groß, um auf den meisten privaten Rechnern zu laufen
    Trotzdem ist es beeindruckend, wenn man bedenkt, dass ein künstlich erzeugter Trainingsdatensatz verwendet wurde
    Nano Banana 1 schlägt es, aber mit Nano Banana 2, Seedance2 oder Grok Imagine kann es noch nicht konkurrieren

    • Es ist bitter ironisch, dass ich bei den vorhersehbaren Produktankündigungen großer Konzerne inzwischen nicht einmal mehr klicke und direkt zu den Kommentaren gehe
      Bei Produktankündigungen von Unternehmen wird oft nicht einmal die grundlegende Tatsache klar benannt, die schon in den ersten neun Wörtern vermittelt werden sollte
      Es gibt allerdings eine fehlende Nuance: Das hier ist ein World Model, das darauf ausgelegt ist, für das Training von Robotik- und autonomen Fahr-AIs nützlich zu sein
      Deshalb ist es eher kein direkter Konkurrent zu Nano Banana oder Seedance; Bild- und Videogenerierung sind zwar möglich, aber der Kern liegt darin, physikalische Daten und Harnesses für AI-Trainingsszenarien bereitzustellen
    • Bild- und Videogenerierungsmodelle sind als Reality Check leichter zu verstehen, um einzuschätzen, wie nah lokale Modelle an Frontier-Modellen sind
  • „Cosmos 3 Nano ist eine kompakte Version mit 16 Milliarden Parametern und für effiziente Inferenz optimiert. Es wurde entwickelt, um Echtzeit-Robotik-Inferenz und Physical-AI-Anwendungen in Workstation-Klasse-Rechenumgebungen wie der NVIDIA RTX PRO 6000 GPU auszuführen.“
    Ich freue mich schon auf den Tag, an dem ich das auf einer Workstation-GPU für über 10.000 Dollar testen kann, für die man so ein teures Setup braucht

    • Ich habe eine GPU, aber keinen Roboter. Wie viel Minimal-funktionsfähiger Roboter braucht man, um damit herumzuspielen?
    • Die gute Nachricht ist, dass Nvidia dir sicher gern ein neues RTX-Spark-Laptop verkauft, auf dem das laufen kann
  • Diese Veröffentlichung integriert Funktionen in eine Mixture-of-Transformers-(MoT)-Architektur, die um zwei Towers herum aufgebaut ist
    Der Reasoning-Tower ist ein Vision-Language-Model (VLM) und fungiert als „Gehirn“, das die Welt versteht, bevor Generierung stattfindet
    Der Generierungs-Tower erzeugt zukünftige Beobachtungen und Aktionssequenzen und produziert per Diffusionsprozess physikbewusste Video- und Aktionsausgaben, konditioniert auf das Verständnis des Reasoning-Towers
    Dieser Ansatz spricht den Ingenieursinstinkt an, Kompromisse zwischen Modellarchitekturen zu optimieren und auszubalancieren, um die Vorteile beider zu vereinen
    Aber nach meinem Verständnis der Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) ist das langfristig genau die falsche Richtung
    Ich verlinke den eigentlichen Text zur Bitter Lesson, weil ich finde, dass dieses Konzept oft missverstanden wird oder ich zumindest mit der Art seiner Verwendung im Diskurs nicht einverstanden bin
    Der Kern ist die historische Beobachtung, dass AI-Forscher versucht haben, Wissen in Agenten einzubauen; kurzfristig hilft das und gibt Forschern ein befriedigendes Gefühl, langfristig führt es aber zu Stagnation und blockiert Fortschritt, während schließlich der entgegengesetzte Ansatz – Skalierung von Rechenleistung durch Suche und Lernen – den Durchbruch bringt
    Diese Architektur fühlt sich für mich wie ein Weg an, Wissen in einen Agenten einzubauen, das kurzfristig hilft und langfristig wahrscheinlich stagniert
    Natürlich können darauf aufbauend interessante Lernprozesse oder Outputs entstehen, aber ich glaube nicht, dass man aus diesem Ansatz noch viel mehr herausholen kann

    • Für mich fühlt es sich eher genau andersherum an
      Die MoT-Architektur wirkt wie das Ideal, das die Bitter Lesson impliziert. Alle Datenformen wie Audio, Bilder, Text, Aktionen und Video werden in einen gemeinsamen latenten Raum eingebracht und das Modell darf sie selbst organisieren
      Es gibt dabei nur minimale Struktur, um unterschiedliche Anforderungen und Ausgabeformate zu behandeln, etwa autoregressive Verarbeitung für Sequenzmodellierung und Vorhersage sowie Diffusionsverarbeitung für Generierung
    • Das ist im Wesentlichen eher Dekompression und inzwischen ziemlich Standard
      Ziel ist es, aus der intern komprimierten Repräsentation Daten in einer für Menschen nutzbaren Form herauszuholen
      Technisch könnte man auch auf Pixel- oder Zeichenebene schlussfolgern, aber das ist im Allgemeinen viel teurer
      Man kann die gesamte Technik als Methode verstehen, Computer schneller arbeiten zu lassen
      Das sieht man auch bei Qwen talker oder den meisten multimodalen Projektoren
    • Dieses Modell hat allerdings einen breiteren Domänenumfang als ein Text-LLM
      Es akzeptiert auch Videoeingaben und ist damit noch breiter als frühere Omni-Modelle
      Die Architektur ist ungewöhnlich, aber ich würde nicht sagen, dass sie extremer getunt ist als die offenen Modelle, die täglich erscheinen
  • Das Beispielvideo zur Lagersicherheit ist wirklich komisch. Die Leute reagieren überhaupt nicht

    • Auch das Autovideo ist seltsam. Der kreuzende Van fährt eindeutig bei Rot über die Kreuzung
      Auch der große Schatten des Laternenpfahls über der Kreuzung ergibt überhaupt keinen Sinn
  • Das Mixture-of-Transformers-Design mit zwei Towers, bei dem ein autoregressiver Reasoner Eingaben an einen Diffusionsgenerator gibt, ist eine interessante architektonische Wette

  • Es ist schwer zu verstehen, was das eigentlich macht
    Ist „zukünftige Beobachtungen und Aktionssequenzen erzeugen“ einfach nur eine komplizierte Umschreibung für Videogenerierung?

    • Nein. Der Unterschied liegt im Aktions-Teil
      Dieses World Model wird zum Beispiel auf Roboteraktionen konditioniert, wodurch zwei Dinge möglich werden, die reine Videogenerierung nicht kann
      Es kann zukünftige Frames vorhersagen, die auf eine bestimmte Aktion folgen, und bei demselben Start-Frame entsteht bei anderer Aktion eine andere Zukunft
      Außerdem kann es rückwärts verwendet werden, um aus beobachteten Frames die dahinterliegenden Aktionen zu erschließen oder die nötigen Aktionen auszugeben, um ein Ziel zu erreichen
      Die Ausgabe sind dann keine Videoframes, sondern Motorbefehle
    • So wie ich es verstehe, meint es sowohl Computer Vision als auch Videogenerierung und verbindet beides zu einem ziemlich robusten World Model
      Eines der gehosteten Beispiele führt nur klassische Videoanalyse durch, ein anderes sagt aus einem statischen Bild ein Video voraus, also betreibt Videogenerierung
    • Wenn man sich vorstellt, was das ist und warum es so formuliert wurde, dann braucht die AI-Robotik wohl eine Art hyperrealistische Game Engine mit besserer Physik als unverformbare Starrkörperphysik à la Unity oder Unreal
      Gleichzeitig muss sie im Gegensatz zu technischen Finite-Elemente-Simulationen deutlich schneller als Echtzeit laufen, und dieses Modell scheint auf genau diesen Bedarf zu zielen
    • Man kann sich einfach die Tabelle der unterstützten Formate ansehen. Es kann Bild, Video, Text und Aktion als Eingabe annehmen und Bild, Video, Text und Aktion ausgeben
    • Es kann zur Erzeugung synthetischer Daten für das Training von Physical AI wie Robotern, Autos und Drohnen verwendet werden
      Man kann die Welt aus der Ich-Perspektive simulieren und Trainingsdaten erzeugen, ohne Roboter in die Wohnungen von Menschen schicken zu müssen
  • Die meisten ausgewählten Beispiele wirken nicht besonders gut
    Es fühlt sich an wie eine seltsame Mischung aus schlechter Game Engine und AI-Krempel
    Es ist schwer vorstellbar, dass so etwas gute Trainingsdaten für echte Anwendungen liefern soll

  • Es ist lustig, dass die Website trotz all dieser technologischen Fortschritte schon mit hoher Last zu kämpfen hat