Cosmos World Foundation Model Platform for Physical AI

Summary

NVIDIA 提出 Cosmos 平台——一个面向 Physical AI 的 World Foundation Model (WFM) 开发平台，包含视频数据处理 pipeline、video tokenizer、预训练 world foundation model（diffusion 和 autoregressive 两种范式）以及 post-training 示例，所有组件开源开放权重。

Problem & Motivation

Physical AI 系统（机器人、自动驾驶等）在真实世界部署前需要安全的训练环境。核心挑战在于 Physical AI 的训练数据必须包含 interleaved observations 和 actions 的序列，数据获取远比传统视觉任务困难。World Foundation Model 作为物理世界的 digital twin，可以为 Physical AI 提供无风险的仿真训练环境。Cosmos 采用 pre-training + post-training 范式：先在大规模多样视频数据上训练通用 world model，再针对具体应用（机器人操控、自动驾驶等）进行 fine-tuning 定制化。该平台旨在降低构建 world model 的门槛，为开发者提供完整的端到端工具链。

Method

数据处理 Pipeline

从约 2000 万小时原始视频中处理出约 1 亿可用 clips
Splitting: 使用 TransNetV2 做 shot detection（BBC 数据集 F1=0.967），H.264 转码实现 6.5× throughput 提升
Filtering: motion filtering（ViT + optical flow）、visual quality filtering（去掉 DOVER 质量分最低 15%）、text overlay detection、video type classification
Annotation: VILA-13B VLM captioning（平均 557 字符描述），TensorRT-LLM 量化实现 10× 加速
Deduplication: 基于 k-means clustering（k=10,000）的 semantic deduplication，去除约 30% 重复数据

Video Tokenizer

统一的 encoder-decoder 架构，同时支持 continuous tokens（vanilla AE）和 discrete tokens（FSQ, vocabulary size 64,000）
2-level Haar wavelet transform 做初始下采样
Spatio-temporal factorized 3D convolutions（空间 1×k×k + 时间 k×1×1）
Causal self-attention，保证 temporal causality，支持 joint image-video training
LayerNorm 替代 GroupNorm 防止 magnitude extremes
压缩比变体：4×8×8、8×8×8、8×16×16
两阶段训练：L1 + perceptual loss (VGG-19) → optical flow loss + Gram-matrix loss
创建了 TokenBench benchmark（500 视频，覆盖 robotic manipulation、driving、egocentric、web 四个领域）

Pre-trained World Foundation Models

Diffusion-based WFM (7B/14B):

Text2World：text → video generation
Video2World：past video + text → future video prediction
使用 continuous tokens (8×8×8-720p)
EDM denoising score matching loss
配备 12B prompt upsampler（基于 Mistral-NeMo）

Autoregressive-based WFM (4B/12B):

基于 next-token prediction
通过 T5 text embeddings + cross-attention 加入文本条件
使用 discrete tokens (8×16×16-720p)
配备 7B diffusion decoder 将 discrete tokens 映射到 continuous tokens 提升质量

训练规模: 10,000 张 NVIDIA H100 GPU，训练 3 个月

Post-training 应用

Camera Control: 通过 camera pose conditioning fine-tune diffusion WFM
Robotic Manipulation: 在 video-action sequence 数据上 fine-tune
Autonomous Driving: 支持多摄像头场景的驾驶视频生成

Guardrails

Pre-Guard（keyword blocking + Aegis text moderation）+ Post-Guard（video safety filtering + face blur）

Key Results

Tokenizer 性能

Image tokenization (MS-COCO 2017, 8×8 compression): Continuous 32.79 PSNR vs FLUX 24.00; Discrete 31.36 PSNR vs LlamaGen 21.99
Video tokenization (DAVIS, 4×8×8): Continuous 35.85 PSNR / 0.920 SSIM / 10.05 rFVD; Discrete 32.97 PSNR / 0.840 SSIM / 53.44 rFVD
比现有方法快 2×~12×，模型更小
单张 A100-80GB 可编码最长 1080p 8秒 / 720p 10秒视频

数据 Pipeline 效率

Shot detection: TransNetV2 F1=0.967 (BBC), 0.919 (RAI), 0.821 (SHOT)
Transcoding: L40S 优化后 0.3702 videos/s（baseline 0.0574）
Caption generation: FP8 精度下 1.96 clips/s（vs PyTorch FP16 的 0.21）

World Model

Diffusion model 生成高质量 3D consistent 视频，物理效果准确
Autoregressive model 具备实时生成潜力
Post-training 在 camera navigation、robotic manipulation、autonomous driving 三个场景展示了有效性

Strengths & Weaknesses

优势:

端到端完整平台：从数据处理到 tokenizer 到预训练再到 post-training，设计统一且工程完备
Causal tokenizer 设计巧妙，支持 joint image-video training，符合 Physical AI 对 temporal causality 的要求
Tokenizer 压缩效率显著优于现有方法（PSNR 提升 4+ dB，速度快 2-12×）
训练规模空前（2000 万小时视频、1 万张 H100），展示了大规模工程能力
开源开放权重，提供完整工具链降低社区使用门槛
同时提供 diffusion 和 autoregressive 两种范式，灵活度高

不足:

论文自己承认没有提供 WFM 在 policy evaluation、training、planning、synthetic data generation 等核心应用场景的实证结果，这些恰恰是 Section 2.1 描述的关键 use case
World model 评估主要依赖定性可视化，缺少系统的定量 benchmark（尤其是 physics prediction accuracy）
计算需求极高（10,000 H100 GPU），可复现性和可及性受限
工程贡献大于方法创新——主要是对已有技术（diffusion、autoregressive transformer、latent representation）的规模化应用
对 NVIDIA 硬件（NVDEC/NVENC、H100/L40S）有强依赖，通用性受限
Prompt 分布差异需要额外的 prompt upsampler 来弥合，增加系统复杂度

Mind Map

mindmap
  root((Cosmos WFM Platform))
    Problem
      Physical AI 需要安全训练环境
      训练数据获取困难
      需要通用 world model 平台
    Data Pipeline
      2000万小时原始视频
      1亿可用 clips
      TransNetV2 shot detection
      VILA-13B captioning
      Semantic deduplication
    Tokenizer
      Continuous + Discrete 统一架构
      Haar wavelet + factorized 3D conv
      Causal self-attention
      TokenBench benchmark
      2x-12x faster than baselines
    Pre-training
      Diffusion WFM 7B/14B
      Autoregressive WFM 4B/12B
      10000 H100 GPUs x 3 months
      Text2World + Video2World
    Post-training
      Camera control
      Robotic manipulation
      Autonomous driving
    Results
      PSNR 35.85 on DAVIS
      4+ dB improvement
      开源开放权重

Notes

这是 NVIDIA 在 world model 领域的重要布局，定位为平台级产品而非单一模型
Tokenizer 是该工作中技术贡献最扎实的部分，TokenBench 也是有价值的社区贡献
论文长达 77 位作者，典型的大厂工程导向工作
值得关注后续 post-training 在具体 Physical AI 任务上的实证验证
代码和模型权重已开源：https://github.com/nvidia-cosmos/cosmos-predict1

MindFlow

Explorer