Summary
VLN-PE 是首个支持 humanoid、quadruped、wheeled 三类机器人的 physically realistic VLN 平台,系统揭示了现有 VLN 方法从 simulation 迁移到 physical embodiment 时的性能退化(约 34% 相对 SR 下降),并发现 cross-embodiment co-training 和 depth 融合是缓解 embodied gap 的有效策略。
Problem & Motivation
现有 VLN 研究建立在理想化 simulation 假设之上,大多面向 point-based 或 wheeled agent 设计,忽略了 physical embodiment 带来的核心挑战:(1)不同 robot morphology 导致 viewpoint shift 和 motion error;(2)真实环境中光照变化、碰撞、摔倒等 physical challenges 未被评估;(3)从 Habitat 等 simulator 到 physical robot 的 transfer gap 缺乏系统量化。VLN-PE 旨在填补这一空白,建立首个 physically grounded 的 VLN 评估体系。
Method
VLN-PE Platform
基于 GRUTopia + NVIDIA Isaac Sim 构建,支持三类机器人形态:
- Humanoid: Unitree H1, G1(RL-based locomotion controller)
- Quadruped: Unitree Aliengo(相机高度约 0.5m,视角与人类差异大)
- Wheeled: Jetbot
场景与数据集
- 90 个 Matterport3D 场景转换为 USD 格式(含手动修复)
- 10 个高质量合成场景(GRScenes)→ GRU-VLN10 数据集(441/111/1,287 episodes)
- 3D Gaussian Splatting 渲染的实验室环境 → 3DGS-Lab-VLN(160 train, 640 eval)
- R2R-PE: 8,679/658/1,347 episodes(经 stair filtering 后)
评估 Metric 扩展
标准 VLN metrics(TL, NE, SR, OS, SPL)之外新增:
- Fall Rate (FR): roll >15° 或 pitch >35°
- Stuck Rate (StR): 位置/航向变化 <0.2m 和 15° 持续 50 步
Baseline 方法
- End-to-End 单步: Seq2Seq(~36M params)、CMA(~36M params)、NaVid(7B)
- Multi-step continuous(新提出): Recurrent Diffusion Policy (RDP) — LongCLIP encoder + ResNet50 depth encoder + GRU + Transformer-based diffusion decoder,预测 dense waypoints T×(Δx, Δy, Δyaw)
- Map-based train-free: 改进版 VLMaps(LLM 解析 subgoals + LSeg semantic grounding + A* planning)
Key Results
VLN-CE → VLN-PE Transfer(Humanoid H1)
- NaVid zero-shot: val-unseen SR 22.42%(约 18% 下降)
- CMA zero-shot: val-unseen SR 16.04%(约 16% 下降)
- 关键发现: 在 Habitat 上用 175K augmented samples 训练的模型,反而不如在 VLN-PE 上从头训练的模型,说明模型严重 overfit to specific simulation platform
Physical Controller 一致性
- 训练/评估都不用 controller: val-seen SR 20.21%
- 仅评估时用 controller: val-seen SR 12.92%, FR 31.76%(大量摔倒)
- 训练+评估都用 controller: val-seen SR 21.12%, FR 23.40%(性能恢复)
Cross-Embodiment 分析
- Quadruped zero-shot SR 仅 2.07%(因 0.5m 相机高度导致严重视角偏差)
- One-for-All co-training: Humanoid SR 26.44%, Quadruped SR 23.83%, Wheeled SR 20.02%(val-unseen)— 多机器人联合训练一致最优
光照鲁棒性
- NaVid(仅 RGB)在低光 DL300 下 SR 从 22.42% 暴跌至 9.95%(-12.47%)
- CMA 和 RDP(RGB-D)在不同光照下表现稳定,证明 multimodal fusion 提升鲁棒性
Out-of-Domain(GRU-VLN10)
- RDP fine-tuned: SR 32.43%(+14.41% vs 无 FT)
- 3DGS-Lab-VLN: NaVid 完全失败(SR 5.81%),RDP SR 30.63%(3DGS artifacts 严重干扰 RGB-only 模型)
真实世界验证(Unitree Go2, 14 episodes)
- 无 VLN-PE fine-tuning: SR 7.14%
- 有 VLN-PE fine-tuning: SR 28.57%(+300% 提升)
Strengths & Weaknesses
Strengths:
- 首次系统量化 physical embodiment gap,填补了 VLN 研究中长期缺失的 evaluation 维度
- Cross-embodiment 实验设计全面:3 种机器人、多种光照、多域场景,结论有说服力
- 新提出的 RDP baseline 将 diffusion policy 引入 VLN,为 continuous action 提供新方向
- One-for-All co-training 结果有实际意义:一个模型服务多种机器人
- Fall Rate / Stuck Rate 等 physical metric 对未来 embodied navigation 评估有重要参考价值
Weaknesses:
- 总体 SR 偏低(最佳约 28%),实用性有限,不过这本身就说明了 physically realistic VLN 的难度
- 仅在 14 个 real-world episodes 上验证,统计显著性不足
- Quadruped 性能极低,虽然归因于相机高度差异,但是否有更好的解决方案(如 multi-height fusion)未深入探索
- 场景主要基于 MP3D,outdoor 和更大规模场景的 generalization 未验证
Mind Map
mindmap root((VLN-PE)) Problem Sim-to-Real embodied gap 未量化 忽略 robot morphology 差异 Physical challenges 未评估 Method GRUTopia + Isaac Sim 平台 3 种机器人形态 R2R-PE / GRU-VLN10 / 3DGS-Lab-VLN 新 baseline: Recurrent Diffusion Policy Results ~34% 相对 SR 下降 Cross-embodiment co-training 最优 RGB-D 比 RGB-only 更鲁棒 Real-world +300% 提升
Notes
- 本文最核心的 insight 是 “models overfit to simulation platforms”:在 Habitat 上用大量数据训练的模型,迁移到 Isaac Sim 后性能反而不如少量 in-domain 数据训练的小模型。这对整个 VLN 社区都是重要警示
- Cross-embodiment co-training 的成功暗示了 data diversity 比 data volume 更重要的原则
- Quadruped 的极低性能(SR 2.07%)揭示了 camera height 是一个被严重低估的 factor,未来 VLN 方法需要设计 height-invariant representations
- 3DGS rendering artifacts 导致 NaVid 失败的发现,说明 RGB-only 方法在新型 scene representation 下的脆弱性