Summary

PROSPECT 提出统一的 streaming VLN agent,通过 CUT3R (3D spatial) 和 SigLIP (2D semantic) 双编码器的 cross-attention fusion,结合 latent predictive representation learning(在 frozen teacher space 中预测下一步特征),在 VLN-CE benchmarks 和真实机器人上均取得强劲表现。

Problem & Motivation

现有 VLN 方法面临两大局限:(1)缺乏对 3D spatial structure 的显式建模,导致 agent 在 continuous environments 中空间感知不足;(2)已有 predictive approaches 要么依赖 low-dimensional state-space models,要么在 explicit pixel space 中做 supervision,容易过拟合到与 navigation 无关的视觉细节。PROSPECT 将 spatial intelligence(CUT3R 提供绝对尺度 3D 特征)和 predictive learning(在冻结 teacher 的 latent space 中做预测)统一到一个 streaming VLA 框架中。

Method

  • Dual encoder fusion: 使用 CUT3R streaming 3D foundation encoder 提取 absolute-scale spatial features,SigLIP 提取 2D semantic features,通过 cross-attention 机制融合两种模态
  • Stream query tokens: 引入 learnable stream query tokens,配合 streaming-causal attention mask,在训练时预测下一步的 latent features;推理时无额外开销
  • Latent predictive representation: 两个轻量 Transformer decoder 分别在 frozen 2D(cosine distance)和 3D(MSE)teacher space 中做预测,损失函数为 L_all = L_nav + gamma(alpha * L_2D + beta * L_3D),其中 gamma=0.01, alpha=0.25, beta=0.75
  • Two-stage training: Stage 1 在 R2R/RxR/R2R-EnvDrop (~479K) 上 SFT;Stage 2 加入 DAgger (~260K)、ScaleVLN (~314K) 和 VQA 数据(LLaVA-Video, ScanQA),共 ~938K samples(71% VLN, 29% VQA)
  • Inference: ~4 Hz,dual RTX-4090 约 0.25s/step

Key Results

  • R2R-CE val-unseen: SR 60.3%, SPL 52.0%, NE 5.31m(single-view RGB, MP3D+VideoQA setting)
  • RxR-CE val-unseen: SR 52.7%, SPL 42.8%, NE 5.93m, nDTW 60.6%
  • Ablation: 2D+3D 联合预测效果最佳(SR 48.7%, SPL 42.9%);CUT3R 比 InfiniteVGGT 更快(0.245s vs 0.284s latency)
  • Long-horizon: 在 >=100 步任务上 SR 提升 +4.14%,说明 predictive representation 对长程导航尤其有效
  • Real robot (ARX-Lift2): Office(Bright) 20/30, Corridor(Moderate) 22/30, Night Street(Low) 9/30,全面超越 NaVid 和 StreamVLN

Strengths & Weaknesses

Strengths:

  • 将 3D spatial intelligence(CUT3R)和 semantic understanding(SigLIP)优雅融合到 streaming 框架中,设计清晰
  • Latent predictive learning 在 frozen teacher space 中进行,避免了 pixel-level 预测的过拟合问题,且推理时零额外开销
  • 真实机器人实验覆盖室内外、不同光照条件,验证了 sim-to-real transfer 能力
  • Long-horizon 性能提升显著,说明 predictive representation 对复杂导航任务有实际价值

Weaknesses:

  • R2R-CE val-unseen SR 60.3% 虽然不错,但与同期 graph-based 方法(如 ETP-R1 的 65%)仍有差距,streaming VLA 在导航精度上仍有提升空间
  • 依赖 CUT3R 这一特定 3D encoder,其泛化性和在 out-of-distribution 场景下的表现有待验证
  • Real robot 夜间场景成功率较低(9/30),说明在极端条件下仍有局限
  • 代码尚未开源,可复现性待观察

Mind Map

mindmap
  root((PROSPECT))
    Problem
      缺乏 3D spatial modeling
      Pixel-level prediction 过拟合
    Method
      CUT3R 3D encoder + SigLIP 2D encoder
      Cross-attention fusion
      Latent predictive representation
      Two-stage SFT + DAgger + ScaleVLN
    Results
      R2R-CE SR 60.3%
      RxR-CE SR 52.7%
      Real robot 部署验证
      Long-horizon +4.14% SR

Notes

  • PROSPECT 代表了 streaming VLA 路线在 VLN 中的最新进展,与 graph-based 路线(ETPNav/ETP-R1)形成互补
  • 值得关注 latent prediction 在其他 embodied tasks(如 manipulation)中的应用潜力