Overview
World model 是 AI 系统中用于理解环境动态并预测未来状态的内部模拟器。这一概念源于 Kenneth Craik (1943) 的 mental model 理论,在深度学习时代获得了全新的技术内涵。如 2411-WorldModelSurvey 所总结,world model 的核心功能可分为两大类:implicit representation(将外部现实转化为内部表征以支持决策)和 future prediction(生成环境演化的仿真)。
近三年(2023-2026)world model 领域经历了爆发式增长,呈现出多线并进的格局。在 reinforcement learning 中,2405-DIAMOND 等工作证明 diffusion-based world model 能以更高 visual fidelity 训练出超越人类的 agent。在游戏/交互模拟中,2402-Genie 和 2408-GameNGen 开创了从无标注视频生成可交互环境的新范式,DeepMind 的 Genie 系列已从 2D platformer 演进到实时 3D world generation(Genie 3, 2025)。在自动驾驶中,2405-Vista 和 2405-OccSora 分别从 video prediction 和 4D occupancy 两个表征空间推进了 driving world model 的能力边界。在机器人领域,2602-DreamZero、2504-UWM、2512-Motus 等工作将 world model 与 action prediction 统一,催生了 World Action Model (WAM) 这一新范式(详见 WorldActionModel-Survey)。在 LLM 推理中,2305-RAP 率先将 LLM 本身视为 world model,用 MCTS 进行 deliberate reasoning。在自监督学习路线上,Meta 的 2506-VJEPA2 通过纯 self-supervised pretraining 在 representation space 实现了理解、预测和规划的统一。
研究活跃度方面,NVIDIA、Google DeepMind、Meta FAIR、OpenAI、Tsinghua 等顶级机构全面布局。2024-2025 年至少发表了 5 篇系统性综述(ACM CSUR, arXiv),GitHub 上多个 awesome list 持续更新。World model 正在从一个分散的研究方向汇聚为 physical AI 的核心基础设施。
技术路线
路线 1:生成式视频世界模型 (Generative Video World Models)
核心思路:以 video generation 为核心,将未来视觉观测的生成作为环境动态建模的基本手段。分为 action-conditioned(可控)和 unconditional(自由生成)两种模式。
代表论文:
- Cosmos:NVIDIA 的 World Foundation Model 平台,2000 万小时视频训练,提供 diffusion/AR 两种 backbone,开源 video tokenizer 和预训练模型,成为下游工作的基础设施。
- Vista:基于 Stable Video Diffusion 的自动驾驶 world model,创新 dynamics enhancement loss + structure preservation loss,支持 4 种 action modality 的统一控制,FID 6.9 on nuScenes。
- IRASim:frame-level action conditioning 实现精确的 action-video 对齐,policy evaluation 与 ground-truth simulator 相关度达 0.99。
优势:视觉表达力强,可直接生成人类可理解的预测;可利用海量 internet-scale video data 进行预训练。 劣势:pixel-space generation 计算开销大;长时序一致性难以保证;缺乏显式 3D 几何信息。
路线 2:联合世界-动作模型 (Joint World-Action Models / WAM)
核心思路:在同一 generative model 中联合建模 video prediction 和 action prediction,使 world understanding 与 motor control 深度耦合。“World model 即 policy”。
代表论文:
- DreamZero:14B autoregressive diffusion transformer,定义了 WAM 概念,seen tasks 62.2%(baseline 27.4%),unseen tasks 39.5%(baseline <1%)。
- UWM:decoupled diffusion timesteps 统一 video + action diffusion,单模型支持 4 种推理模式。RSS 2025。
- Motus:Mixture-of-Transformers + optical flow latent action,RoboTwin 87.02%。
- DreamGen:4 阶段 pipeline,video world model 作为 synthetic data generator,从单任务泛化到 22 种新行为。
- World-VLA-Loop:world model 作为 RL post-training 环境,与 VLA 闭环迭代优化。
优势:泛化能力远超纯 action prediction(VLA);自然利用 action-free video data。 劣势:计算开销极大(DreamZero 需 2×GB200 实现 7Hz);long-horizon 能力有限。
该路线的详细分析见 WorldActionModel-Survey。
路线 3:交互式环境生成 (Interactive Environment Generation)
核心思路:从数据中学习生成可交互的虚拟环境,用户可通过 action 实时与生成内容交互。目标是用 neural model 替代传统 game engine 或 simulator。
代表论文:
- Genie:11B 参数 foundation world model,核心创新是通过 VQ-VAE 从无标注视频中无监督发现 latent action space(8 个 discrete code),支持从文本/图片/草图生成可交互的 2D 世界。ICML 2024。
- GameNGen:基于 fine-tuned Stable Diffusion 在 DOOM 上实现 20 FPS 实时交互,noise augmentation 技术有效解决 auto-regressive drift。人类评估者区分真实/生成画面准确率仅 58-60%。ICLR 2025。
- Genie 2/3(DeepMind, 2024-2025):从 2D 扩展到 quasi-3D 再到实时 720p 3D world generation,分钟级连贯交互。
优势:开辟了”从视频学习可交互世界”的全新范式;Genie 的 unsupervised latent action discovery 不依赖 action label。 劣势:分辨率和 context window 有限;计算成本高;生成环境的物理一致性难以保证。
路线 4:Latent Dynamics / Model-Based RL
核心思路:在低维 latent space 或 state space 建模环境动力学,用于 imagination-based planning 或 policy optimization。经典的 model-based RL 路线。
代表论文:
- DIAMOND:diffusion-based world model 用于 Atari 100k,证明保留 visual details 对 RL 至关重要。3 步 denoising 实现高效推理,mean HNS 1.46(超越 DreamerV3、IRIS、STORM)。NeurIPS 2024 Spotlight。
- Robotic World Model:dual-autoregressive GRU 在低维 state space 建模,MBPO-PPO 实现 zero-shot sim-to-real,inference 仅 1ms/step。
- V-JEPA 2:Meta 的 self-supervised approach,在 representation space(非 pixel space)做 prediction 和 planning,62 小时无标签机器人视频即可训练 action-conditioned world model,latent planning 比 pixel-space generation 快 15×。
优势:计算高效(latent space 远小于 pixel space);DIAMOND 证明 diffusion 比 discrete tokenization 更适合保留 RL 关键信息;V-JEPA 2 展示了 self-supervised 路线的数据效率。 劣势:latent space 的可解释性有限;从 latent 到 pixel 的 reconstruction 存在信息损失。
路线 5:LLM 作为世界模型 (LLM as World Model)
核心思路:利用 LLM 在大规模文本预训练中获得的 world knowledge,将 LLM 本身视为 implicit world model,用于 reasoning 和 planning。
代表论文:
- RAP:将 LLM 同时用作 world model(state transition prediction)和 reasoning agent,结合 MCTS 进行 deliberate reasoning。LLaMA-33B + RAP 在 Blocksworld 上超越 GPT-4 + CoT。EMNLP 2023。
- GigaBrain:VLA 结合 world model-based RL,将语言模型的 reasoning 能力与物理世界的 dynamics modeling 结合。
优势:不需要额外训练独立的 dynamics model;框架通用,可应用于多种推理任务;inference-time scaling 的先驱思路。 劣势:LLM 的 world model 能力依赖 in-context learning,对复杂物理环境可能不够准确;MCTS 推理开销大。
路线 6:3D/4D 结构化世界模型 (Structured 3D/4D World Models)
核心思路:在显式 3D 或 4D 空间中建模世界状态,保留几何结构信息,用于需要空间理解的任务(如自动驾驶、导航)。
代表论文:
- OccSora:diffusion-based 4D occupancy 生成,FID 8.348 优于 image-based 方法,支持 trajectory-conditioned 16 秒场景生成。ICLR 2025。
- GTA:显式 world representation 用于 VLN,证明结构化空间表征对导航推理的重要性。
优势:保留了 3D 几何信息,对需要空间推理的任务更友好;不受 2D video generation 的视角限制。 劣势:3D reconstruction 质量是核心瓶颈(OccSora mIoU 仅 27.4%);训练数据获取困难。
Datasets & Benchmarks
| Dataset/Benchmark | 领域 | 规模 | 评估指标 | SOTA | 特点 |
|---|---|---|---|---|---|
| Atari 100k | RL/Game | 26 games, 100K env steps | Human Normalized Score (HNS) | 1.46 (DIAMOND) | 经典 world model RL benchmark |
| nuScenes | 自动驾驶 | 1000 scenes, 1.4M frames | FID, FVD, mIoU | FID 6.9 (Vista) | 标准驾驶数据集 |
| LIBERO | 机器人 | 130 tasks, 5 suites | Success Rate | 0.79 (UWM) | 多任务桌面操作 |
| RoboTwin | 机器人 | 多 embodiment | Success Rate | 87.02% (Motus) | 双臂操作 benchmark |
| Push-T | 机器人 | 推块任务 | IoU | 0.961 (IRASim) | 简单 planar manipulation |
| Something-Something v2 | 视频理解 | 220K videos | Top-1 Accuracy | 77.3% (V-JEPA 2) | 动作/物体交互理解 |
| Epic-Kitchens-100 | 视频预测 | 100 hours | Recall@5 | — | 长时序厨房活动 |
| WorldModelBench | 通用 | 多 domain | Physics adherence, instruction following | — | NeurIPS 2025,首个系统化 WM 评测 |
| Blocksworld | 推理 | 逻辑规划 | Success Rate | 超 GPT-4+CoT (RAP) | 经典 planning domain |
Key Takeaways
-
World model 正在从分散研究汇聚为统一范式。从 model-based RL (DIAMOND) 到 video generation (Cosmos, Vista) 到 interactive simulation (Genie, GameNGen) 到 robotics (DreamZero, UWM) 到 LLM reasoning (RAP),所有方向都在向”构建环境内部模拟器”这一共同目标收敛。2411-WorldModelSurvey 的 implicit representation vs. future prediction 分类体系提供了统一理解框架。
-
Diffusion model 成为 world modeling 的主导技术。无论是 game simulation (GameNGen)、RL training (DIAMOND)、autonomous driving (Vista, OccSora) 还是 robotics (DreamZero, UWM),diffusion 都是核心 generation backbone。DIAMOND 证明 diffusion 比 discrete tokenization 更适合保留 RL 关键信息,这一 insight 具有广泛适用性。
-
Self-supervised 路线是值得关注的替代范式。V-JEPA 2 证明纯 self-supervised pretraining(无语言监督)可以同时赋能理解、预测和规划,仅 62 小时无标签机器人视频即可实现 zero-shot manipulation。在 representation space 而非 pixel space 做 planning 带来 15× 速度提升,对 real-time robot control 有重要实践意义。建议加入 DomainMaps:world-model 作为新 domain。
-
Unsupervised action discovery 打开了数据飞轮。Genie 的 latent action model 证明可以从无 action label 的视频中发现可控的 action space,UWM/DreamGen/Motus 进一步验证了利用 action-free video data 的多种路径。这是 world model 相比纯 VLA 的核心数据优势。
-
计算成本是全领域共性瓶颈。从 DreamZero 的 2×GB200 到 Cosmos 的 10K H100,从 DIAMOND 的 1 GPU-year 到 V-JEPA 2 的 22M 视频训练,world model 的计算需求远超常规 supervised learning。Model distillation、efficient architecture、latent-space planning 是缓解这一瓶颈的三个主要方向。
Open Problems
-
Long-horizon reasoning 缺失:当前 world model 本质上是 short-horizon reactive model——DreamZero 6.6s context,World-VLA-Loop ~20s,GameNGen 3s memory。如何引入 hierarchical planning、explicit memory 或 multi-scale temporal modeling 来支持分钟级 long-horizon 任务,是核心未解难题。
-
物理一致性不足:即使 Sora 级别的 video model 也”难以一致性地复现正确物理定律”(2411-WorldModelSurvey)。OccSora 的 mIoU 仅 27.4%,移动物体细节不一致。如何在 world model 中注入 causal reasoning 和 physics prior,是从”看起来像”到”真正理解”的关键跨越。
-
统一评测框架缺失:现有 benchmark 分散在各 domain(Atari 100k for RL, nuScenes for driving, LIBERO for robotics),缺乏跨领域的统一 world model 评测标准。WorldModelBench (NeurIPS 2025) 是初步尝试,但远未形成共识。需要评估 physical consistency、temporal coherence、action-video alignment、causal reasoning 等维度。
-
Scaling laws 未知:DreamGen 展示了 log-linear scaling 趋势,但 world model 是否存在类似 LLM 的 power-law scaling?Optimal compute allocation 在 video vs. action vs. representation 之间如何分配?World model 的 emergent ability 在什么 scale 出现?均无明确结论。
-
Real-time inference gap:联合 video+action generation 的计算开销远超纯 action prediction。DreamZero 的 7Hz on 2×GB200 vs. VLA 的 20Hz+ on consumer GPU。V-JEPA 2 的 latent planning 提供了 15× 加速,但 robot control 需要的 real-time 性能仍是挑战。
-
Implicit vs. Explicit representation 的最优平衡:pixel-space video (Vista, GameNGen) 表达力强但计算昂贵,latent space (DIAMOND, V-JEPA 2) 高效但信息有损,3D/4D (OccSora) 结构化但重建困难。如何在不同表征空间之间找到最优 trade-off,或设计能自适应切换的 multi-scale representation,是架构层面的开放问题。
-
Cross-domain transfer:能否训练一个跨 game/driving/robotics/reasoning 的 universal world model?Cosmos 和 Genie 系列在 foundation model 方向的探索初见端倪,但真正的 cross-domain generalization 尚未实现。
调研日志
第二轮更新(2026-04-01)
- 调研日期: 2026-04-01
- 论文统计: 无新增论文,日期更新
第一轮(2026-03-30)
- 调研日期: 2026-03-30
- 论文统计: vault 已有 12 篇 + 新 digest 8 篇 + 跳过 0 篇 + 失败 0 篇
- 未能获取: 无