Summary
VL-Nav 提出 neuro-symbolic VLN 系统,结合 symbolic 3D scene graph 与 image memory 增强 VLM 的 neural reasoning 能力,在 indoor 场景达到 83.4% SR,outdoor 达到 75% SR,real-world 实验中完成 483 米长距离导航。
Problem & Motivation
现有 VLN 方法在 large unseen environments 中面临两大挑战:(1) 复杂自然语言指令的 task decomposition 和动态 replanning 能力不足;(2) 探索策略缺乏 semantic guidance,导致在大场景中效率低下。纯 neural 方法难以维持对环境的结构化理解,而 symbolic 方法缺乏灵活的语义推理。VL-Nav 通过 neuro-symbolic 架构将两者优势结合,在 DARPA TIAMAT Challenge 中验证了其有效性。
Method
系统由两个核心模块组成:
NeSy Task Planner:维护一个 unified memory system,包含 3D scene graph(object nodes + room nodes)和 object-centric image memory(存储 centroid、detection confidence、robot pose、best-viewpoint RGB image)。Room segmentation 使用 morphological operations 配合 LLM-based labeling。VLM backbone 采用 Qwen3-VL,将复杂指令分解为 atomic subtasks(“exploration” 和 “go to”)。目标验证采用 coarse-to-fine 策略:先通过 symbolic filtering 从 scene graph 提取 top-k candidates,再由 VLM 对 image memory 进行 neural verification。
NeSy Exploration System:生成两类 candidate goals——frontier-based target points(未知区域边界的 free cells)和 instance-based target points(open-vocabulary detection 检测到的候选实例)。Scoring policy 融合三个维度:VL Score(通过 YOLO-World 和 FastSAM 生成 Gaussian-mixture distribution)、distance weighting(偏好近距离目标)、unknown-area weighting(鼓励探索新区域)。最终 NeSy Score = w_dist · S_dist + w_VL · S_VL · S_unknown,优先选择 instance-based targets,无实例时 fallback 到 frontier-based goals。
Key Results
Simulation (DARPA TIAMAT Phase 1):
- Indoor: Apartment 1 = 87.5% SR, Apartment 2 = 79.2% SR(平均 ~83.4%)
- Outdoor: Camping Site = 75.0% SR, Factory = 75.0% SR
- 大幅超越 baselines:Frontier Exploration (0-8.3%), VLFM (4.2-8.3%), SG-Nav (0-8.3%), ApexNav (12.5-25.0%)
Real-world:
- Hallway 86.7% SR, Office 91.7% SR, Apartment 88.9% SR, Outdoor 77.8% SR
- SPL: 0.637-0.812,显著优于 VLFM (44.4-75.0% SR)
Ablation:去除 IBTP 后 SR 降至 58.3-70.8%,去除 curiosity exploration 后 SR 降至 58.3-79.1%。
Strengths & Weaknesses
Strengths:
- Neuro-symbolic 设计巧妙,coarse-to-fine verification 有效避免了纯 neural 方法的 hallucination 问题
- 在 simulation 和 real-world 均有大规模验证,包括 483m 长距离导航和 multi-floor 场景
- Asynchronous architecture(Task Planner on remote GPU + exploration on edge device)具有实际部署价值
- 相比所有 baselines 有压倒性优势
Weaknesses:
- 未在标准 VLN benchmarks(R2R、REVERIE 等)上评估,与 learning-based 方法的对比不充分
- 依赖 3D LiDAR(Livox Mid-360)构建场景,硬件要求较高
- Room segmentation 和 object detection 的鲁棒性在高度 cluttered 环境中未充分测试
- Qwen3-VL 作为 backbone 的 latency 对实时性的影响未详细分析
Mind Map
mindmap root((VL-Nav)) Problem 大场景 reasoning-based VLN Task decomposition + replanning Semantic-guided exploration Method NeSy Task Planner 3D scene graph + image memory Qwen3-VL task decomposition Coarse-to-fine verification NeSy Exploration Frontier-based + instance-based goals VL Score + distance + unknown-area NeSy scoring policy Results Indoor 83.4% SR Outdoor 75% SR Real-world 86.3% SR 483m long-range navigation
Notes
- 项目网站:https://sairlab.org/vlnav/
- DARPA TIAMAT Challenge 是面向 real-world 的 VLN 竞赛,评估标准与学术 benchmarks 差异较大
- 该工作强调 real-world deployment,与大部分只在 simulation 中验证的 VLN 工作形成对比