Summary
SpatialNav 提出利用 Spatial Scene Graph (SSG) 实现 zero-shot VLN,通过 agent-centric spatial mapping、compass-aligned visual representation 和 remote object localization 三大组件,在 R2R val-unseen 达到 57.7% SR,R2R-CE 达到 64.0% SR,大幅超越 zero-shot baselines。
Problem & Motivation
Zero-shot VLN 方法与 learning-based 方法之间存在显著性能差距,核心原因在于 zero-shot agent 缺乏对环境 spatial structure 的充分理解。现有 zero-shot 方法直接用 VLM 做 sequential decision,但难以捕捉全局空间关系。SpatialNav 的核心 insight 是:允许 agent 在任务执行前充分探索环境并构建 spatial scene graph,从而将 3D spatial structure 和 object semantics 编码为可供 VLM reasoning 的结构化表示。
Method
Spatial Scene Graph (SSG) 构建分四个阶段:
- Floor Segmentation:基于 height-based clustering(DBSCAN)分离不同楼层
- Room Segmentation:geometric heuristics 划分房间,超过 20m² 的区域需人工校验
- Room Classification:使用 GPT-5 分析 pre-exploration 图像进行房间类型标注
- Object Detection:在 Matterport3D training data 上 fine-tuned SpatialLM 检测物体
SpatialNav Agent 包含三个关键组件:
- Agent-centric Spatial Map:从 SSG 中 query 约 7m 范围内的信息,生成 top-down spatial representation,提供局部空间上下文
- Compass-like Visual Observation:将 8 个方向的视图组织为 3×3 grid 的单张图像(compass-style),token 开销仅 ~640(vs. sequential input 的 1700+),减少 62% 且性能接近
- Remote Object Localization:从 navigable locations 检索 SSG 中的 object semantics,实现 “future-aware decision making”,使 agent 能感知当前视野之外的物体
Key Results
Discrete environments:
- R2R val-unseen: 57.7% SR, 47.8% SPL(vs. SpatialGPT 47.1% SR, 36.1% SPL,+10.6% SR, +11.7% SPL)
- REVERIE val-unseen: 49.6% SR(接近 supervised DUET+ScaleVLN 的 57.0%)
Continuous environments:
- R2R-CE: 64.0% SR(vs. VLN-Zero 42.4%,+21.6%)
- RxR-CE: 32.4% SR(vs. STRIDER 35.0%,略低但为 zero-shot 方法)
Ablation:
- Compass-style visual format: 1024×1024 达到 60.3% SR(vs. sequential 62.5%),tokens 减少 62%
- 最优 perception radius = 7.68m,过大或过小均降低性能
- Spatial map alone 40.8% SR → 加 remote objects 在 visual-grounded 条件下提升显著
Strengths & Weaknesses
Strengths:
- Zero-shot 框架在标准 benchmarks 上大幅超越同类方法,R2R-CE 上甚至超越部分 supervised methods
- Compass-style visual representation 设计精巧,以 62% 的 token 节省达到接近 full observation 的性能
- 在 discrete 和 continuous environments 上都有全面评估
- SSG 的 hierarchical 结构(floor → room → object)提供清晰的 spatial reasoning 基础
Weaknesses:
- Pre-exploration 假设较强:需要在任务执行前完整探索环境,限制了在 unseen environments 中的 online 应用
- Room segmentation 对 open spaces 仍需人工校正,自动化程度不足
- SSG 构建依赖 fine-tuned SpatialLM,在 domain transfer 时可能需要重新训练
- 未评估 SLAM-based point cloud generation 的 robustness 和 computational overhead
Mind Map
mindmap root((SpatialNav)) Problem Zero-shot VLN 性能差距 缺乏 spatial structure 理解 VLM token 效率低 Method Spatial Scene Graph Floor segmentation Room segmentation Object detection Agent Design Agent-centric spatial map Compass-like visual repr Remote object localization Results R2R 57.7% SR zero-shot R2R-CE 64.0% SR Token 减少 62%
Notes
- Qi Wu 组(University of Adelaide)是 VLN 领域的重要力量,NavGPT 也出自该组
- R2R-CE 64.0% SR 作为 zero-shot 方法,已接近 Efficient-VLN (64.2%) 等 supervised SOTA,说明 spatial structure 对 VLN 极其关键
- Compass-style visual representation 的 token 效率优化思路可迁移到其他 VLM-based navigation 系统