Summary

本文提出 Robotic World Model (RWM),通过 dual-autoregressive 机制和 self-supervised training 学习长 horizon 动力学预测模型,结合 MBPO-PPO 实现高效 policy optimization,并在四足和人形机器人上完成 zero-shot sim-to-real 部署。

Problem & Motivation

当前 model-free RL(如 PPO、SAC)在仿真中表现出色,但其高交互需求使其难以在真实机器人上直接训练。Model-based RL 理论上可以提高 sample efficiency,但面临三大挑战:(1) 长 horizon 预测中 error accumulation 严重;(2) sim-to-real transfer 困难;(3) 现有方法依赖 domain-specific architectural bias,泛化能力不足。因此需要一个通用的 world model 框架,既能准确预测复杂动力学,又能支撑下游 policy 学习。

Method

RWM 的核心架构包含三个关键创新:

  • Self-Supervised Autoregressive Training:训练时模型将自身预测作为下一步输入(而非 teacher-forcing),使训练分布匹配推理分布,显著减少 error accumulation。损失函数中使用指数衰减权重 αᵏ 平衡不同 horizon 步的贡献。
  • Dual-Autoregressive GRU Architecture:内层 autoregression 在历史 context(M=32 步)上更新 hidden state;外层 autoregression 在 forecast horizon(N=8 步)上迭代预测。同时预测 observation 和 privileged information(contact、force)。
  • MBPO-PPO Policy Optimization:结合 model-based imagination rollout 与 PPO 进行 policy 更新,支持 100+ 步 autoregressive rollout 下的稳定优化。先在仿真数据上预训练 world model(50 min / 6M transitions),再用 MBPO-PPO 训练 policy(约 5 min)。

Key Results

  • 预测精度:在 ANYmal D 四足机器人(50Hz)上,RWM 的长 horizon 预测与 ground truth 保持高度一致,抗 Gaussian noise 能力显著优于 MLP baseline。
  • 跨环境泛化:在 manipulation、quadruped、humanoid 三类任务上,RWM 均优于 RSSM、Transformer 和 MLP baseline。Autoregressive training(RWM-AR)相比 teacher-forcing(RWM-TF)预测误差显著降低。
  • 硬件部署:在 ANYmal D(四足)和 Unitree G1(人形)上实现 zero-shot sim-to-real transfer,MBPO-PPO 在 ANYmal D 上达到 real reward 0.90±0.04(model-free PPO 为 0.90±0.03)。
  • 计算效率:World model 预训练 50 分钟,policy 训练 5 分钟,推理 1ms/step。
  • Baseline 对比:SHAC 无法收敛;Dreamer 部分收敛但落后显著。

Strengths & Weaknesses

优势

  • Dual-autoregressive 设计优雅地解决了长 horizon 预测误差累积问题,无需 domain-specific inductive bias,泛化性好
  • 实验覆盖 manipulation、四足、人形三大类任务,硬件验证充分
  • Zero-shot sim-to-real 成功部署,实用价值高
  • 噪声鲁棒性分析和 horizon 消融实验充分,提供了有价值的设计洞察

不足

  • 与精心调优的 model-free RL 相比优势微弱(0.90±0.04 vs 0.90±0.03),额外复杂性的回报有限
  • 仍依赖仿真数据预训练,未实现真正的纯 real-world online learning(在线学习平均失败 20+ 次)
  • Autoregressive training(N=8)需要顺序计算,训练时间代价较大
  • 依赖 privileged information(contact、force),缺乏此类信息时的泛化能力未被探索

Mind Map

mindmap
  root((RoboticWorldModel))
    Problem
      Model-free RL sample efficiency 不足
      长 horizon error accumulation
      Sim-to-real transfer 困难
      Domain-specific bias 限制泛化
    Method
      Self-supervised autoregressive training
      Dual-autoregressive GRU
        Inner: history context M=32
        Outer: forecast horizon N=8
      MBPO-PPO policy optimization
      预测 observation + privileged info
    Results
      跨任务泛化优于 RSSM/Transformer/MLP
      ANYmal D reward 0.90±0.04
      Zero-shot sim-to-real 成功
      预训练 50min + policy 5min

Notes