Summary

NVIDIA 提出 Cosmos 平台——一个面向 Physical AI 的 World Foundation Model (WFM) 开发平台,包含视频数据处理 pipeline、video tokenizer、预训练 world foundation model(diffusion 和 autoregressive 两种范式)以及 post-training 示例,所有组件开源开放权重。

Problem & Motivation

Physical AI 系统(机器人、自动驾驶等)在真实世界部署前需要安全的训练环境。核心挑战在于 Physical AI 的训练数据必须包含 interleaved observations 和 actions 的序列,数据获取远比传统视觉任务困难。World Foundation Model 作为物理世界的 digital twin,可以为 Physical AI 提供无风险的仿真训练环境。Cosmos 采用 pre-training + post-training 范式:先在大规模多样视频数据上训练通用 world model,再针对具体应用(机器人操控、自动驾驶等)进行 fine-tuning 定制化。该平台旨在降低构建 world model 的门槛,为开发者提供完整的端到端工具链。

Method

数据处理 Pipeline

  • 从约 2000 万小时原始视频中处理出约 1 亿可用 clips
  • Splitting: 使用 TransNetV2 做 shot detection(BBC 数据集 F1=0.967),H.264 转码实现 6.5× throughput 提升
  • Filtering: motion filtering(ViT + optical flow)、visual quality filtering(去掉 DOVER 质量分最低 15%)、text overlay detection、video type classification
  • Annotation: VILA-13B VLM captioning(平均 557 字符描述),TensorRT-LLM 量化实现 10× 加速
  • Deduplication: 基于 k-means clustering(k=10,000)的 semantic deduplication,去除约 30% 重复数据

Video Tokenizer

  • 统一的 encoder-decoder 架构,同时支持 continuous tokens(vanilla AE)和 discrete tokens(FSQ, vocabulary size 64,000)
  • 2-level Haar wavelet transform 做初始下采样
  • Spatio-temporal factorized 3D convolutions(空间 1×k×k + 时间 k×1×1)
  • Causal self-attention,保证 temporal causality,支持 joint image-video training
  • LayerNorm 替代 GroupNorm 防止 magnitude extremes
  • 压缩比变体:4×8×8、8×8×8、8×16×16
  • 两阶段训练:L1 + perceptual loss (VGG-19) → optical flow loss + Gram-matrix loss
  • 创建了 TokenBench benchmark(500 视频,覆盖 robotic manipulation、driving、egocentric、web 四个领域)

Pre-trained World Foundation Models

Diffusion-based WFM (7B/14B):

  • Text2World:text → video generation
  • Video2World:past video + text → future video prediction
  • 使用 continuous tokens (8×8×8-720p)
  • EDM denoising score matching loss
  • 配备 12B prompt upsampler(基于 Mistral-NeMo)

Autoregressive-based WFM (4B/12B):

  • 基于 next-token prediction
  • 通过 T5 text embeddings + cross-attention 加入文本条件
  • 使用 discrete tokens (8×16×16-720p)
  • 配备 7B diffusion decoder 将 discrete tokens 映射到 continuous tokens 提升质量

训练规模: 10,000 张 NVIDIA H100 GPU,训练 3 个月

Post-training 应用

  • Camera Control: 通过 camera pose conditioning fine-tune diffusion WFM
  • Robotic Manipulation: 在 video-action sequence 数据上 fine-tune
  • Autonomous Driving: 支持多摄像头场景的驾驶视频生成

Guardrails

  • Pre-Guard(keyword blocking + Aegis text moderation)+ Post-Guard(video safety filtering + face blur)

Key Results

Tokenizer 性能

  • Image tokenization (MS-COCO 2017, 8×8 compression): Continuous 32.79 PSNR vs FLUX 24.00; Discrete 31.36 PSNR vs LlamaGen 21.99
  • Video tokenization (DAVIS, 4×8×8): Continuous 35.85 PSNR / 0.920 SSIM / 10.05 rFVD; Discrete 32.97 PSNR / 0.840 SSIM / 53.44 rFVD
  • 比现有方法快 2×~12×,模型更小
  • 单张 A100-80GB 可编码最长 1080p 8秒 / 720p 10秒视频

数据 Pipeline 效率

  • Shot detection: TransNetV2 F1=0.967 (BBC), 0.919 (RAI), 0.821 (SHOT)
  • Transcoding: L40S 优化后 0.3702 videos/s(baseline 0.0574)
  • Caption generation: FP8 精度下 1.96 clips/s(vs PyTorch FP16 的 0.21)

World Model

  • Diffusion model 生成高质量 3D consistent 视频,物理效果准确
  • Autoregressive model 具备实时生成潜力
  • Post-training 在 camera navigation、robotic manipulation、autonomous driving 三个场景展示了有效性

Strengths & Weaknesses

优势:

  • 端到端完整平台:从数据处理到 tokenizer 到预训练再到 post-training,设计统一且工程完备
  • Causal tokenizer 设计巧妙,支持 joint image-video training,符合 Physical AI 对 temporal causality 的要求
  • Tokenizer 压缩效率显著优于现有方法(PSNR 提升 4+ dB,速度快 2-12×)
  • 训练规模空前(2000 万小时视频、1 万张 H100),展示了大规模工程能力
  • 开源开放权重,提供完整工具链降低社区使用门槛
  • 同时提供 diffusion 和 autoregressive 两种范式,灵活度高

不足:

  • 论文自己承认没有提供 WFM 在 policy evaluation、training、planning、synthetic data generation 等核心应用场景的实证结果,这些恰恰是 Section 2.1 描述的关键 use case
  • World model 评估主要依赖定性可视化,缺少系统的定量 benchmark(尤其是 physics prediction accuracy)
  • 计算需求极高(10,000 H100 GPU),可复现性和可及性受限
  • 工程贡献大于方法创新——主要是对已有技术(diffusion、autoregressive transformer、latent representation)的规模化应用
  • 对 NVIDIA 硬件(NVDEC/NVENC、H100/L40S)有强依赖,通用性受限
  • Prompt 分布差异需要额外的 prompt upsampler 来弥合,增加系统复杂度

Mind Map

mindmap
  root((Cosmos WFM Platform))
    Problem
      Physical AI 需要安全训练环境
      训练数据获取困难
      需要通用 world model 平台
    Data Pipeline
      2000万小时原始视频
      1亿可用 clips
      TransNetV2 shot detection
      VILA-13B captioning
      Semantic deduplication
    Tokenizer
      Continuous + Discrete 统一架构
      Haar wavelet + factorized 3D conv
      Causal self-attention
      TokenBench benchmark
      2x-12x faster than baselines
    Pre-training
      Diffusion WFM 7B/14B
      Autoregressive WFM 4B/12B
      10000 H100 GPUs x 3 months
      Text2World + Video2World
    Post-training
      Camera control
      Robotic manipulation
      Autonomous driving
    Results
      PSNR 35.85 on DAVIS
      4+ dB improvement
      开源开放权重

Notes

  • 这是 NVIDIA 在 world model 领域的重要布局,定位为平台级产品而非单一模型
  • Tokenizer 是该工作中技术贡献最扎实的部分,TokenBench 也是有价值的社区贡献
  • 论文长达 77 位作者,典型的大厂工程导向工作
  • 值得关注后续 post-training 在具体 Physical AI 任务上的实证验证
  • 代码和模型权重已开源:https://github.com/nvidia-cosmos/cosmos-predict1