Vision-Language Navigation Survey

Overview

一句话定位：VLN（Vision-and-Language Navigation）要求 agent 按自然语言指令在未见环境中导航到目标，是 embodied AI 中语言 grounding 与空间推理最成熟的落点之一。

领域活跃度：过去 3 年 VLN 从”discrete nav-graph + task-specific encoder-decoder”稳态跃迁到”continuous environment + streaming VLM”的新范式，R2R-CE val-unseen SR 从 2022 年 ~50%（DUET, HAMT）提升到 2026 年 64%+（Efficient-VLN, ETP-R1），同时 zero-shot MLLM 路线从 <10%（NavGPT 早期尝试）追到 48.8%（GTA）。四大活跃方向并行推进：graph-based supervised (DUET → ETPNav → Efficient-VLN / ETP-R1)、streaming VLA (NaVid → NaVILA → StreamVLN → PROSPECT → DyGeoVLN)、zero-shot MLLM with EWR (NavGPT → GTA / SpatialNav)、GRPO-based RFT (VLN-R1 → ETP-R1)。

整体趋势：

Continuous > discrete：R2R-CE / RxR-CE 已成 de facto benchmark，discrete nav-graph 上的 SOTA 主要是历史参考；R2R-CE 是 VLN 在 2025–2026 的核心战场。
VLM backbone 是默认起点：LLaVA-Video / Qwen2-VL / VILA 已取代 task-specific encoder-decoder，social 2024 survey (VLN Foundation Survey) 所说的 “FM-as-agent” 已从预言变成现实。
Hierarchical + language-as-action 成为部署范式：NaVILA 的 “language mid-level action” 把 VLA 拆成 high-level VLM（1–2 Hz）+ low-level RL locomotion（real-time），这条架构正在成为 legged / real-robot VLN 的默认模板。
3D/spatial prior 的价值被反复验证：从 GTA 的 TSDF + BEV visual prompting，到 PROSPECT 的 CUT3R 3D fusion，到 DyGeoVLN 的 dynamic geometry FM——显式 3D 表示在 continuous VLN 中几乎一致地涨分。
Benchmark 停滞已被识别并开始破局：VLNVerse 的 Table 1 指出 R2R 之后几乎所有”新 benchmark”都在 MP3D 原 90 个场景上反复重标注（贡献 0 new scenes），Strict 物理设定下 MLLM agent SR 相对 Tel-Hop 下降 10 pp。embodied gap 开始成为新的讨论焦点（VLN-PE、NaviTrace、VLNVerse）。

Problem & Motivation

核心问题：给定自然语言指令 $I$ 和 egocentric 视觉流 ${o_{1}, \dots, o_{t}}$ ，agent 需要输出一系列低层动作 ${a_{1}, \dots, a_{T}}$ 使自己到达指令描述的目标位置。评测通常要求在终点 ≤ 3 m 处主动 STOP。

为什么重要：

Language grounding 的最具体化 benchmark：VLN 需要把抽象语言同时 ground 到感知（“through the door with the red handle”）、动作（“turn left 30 degrees”）和状态（“you should be facing the kitchen”），是 embodied multimodal reasoning 的集大成场景。
Sim-to-real 的 accessible 训练场：相对 manipulation，navigation 的 sim-to-real gap 可控、可量化（几何准确性远胜于接触物理），因此成为验证 VLM-based agent 真实世界可部署性的最佳起点。
VLA / spatial intelligence 的前哨：VLN 是 VLA 的 navigation 子集，其 hierarchical planning + language mid-level action 的架构直接对应 VLA 的 hierarchical inference（见 VLN-VLA-Unification），spatial representation 的研究结果（topological map、3D scene graph、3D fusion）对 manipulation 和 world model 同样有迁移价值。

为什么适合现在做：

开源 Video-LLM（LLaVA-Video、Qwen2-VL、VILA）已到 7–8B 规模，在单张 A100 上可跑 VLN inference；
CUT3R / VGGT / π³ 等 feed-forward 3D 几何 FM 让 “单目 RGB + 几何 prior” 成为可行路线（PROSPECT、DyGeoVLN）；
数据 bottleneck 被部分破解——ScaleVLN（3M 轨迹）、NaVILA 的 YouTube touring video pipeline、NavFoM 的 Sekai + SLAM 标注把训练样本推到 12.7M 量级；
Isaac Sim + GRUTopia + VLNVerse 让物理仿真成为可用 benchmark。

技术路线对比

VLN 当前四条主流路线在 R2R-CE val-unseen 上的代表性数字见下表，Problem framing、数据需求、训练成本、部署难度各不相同。

1) Graph-based Supervised（topological planner）

思路：在线构建拓扑图（visited / current / navigable / ghost nodes），用 cross-modal graph transformer 在全图上选 long-term goal，再用 waypoint predictor + low-level controller 执行。

代表工作：DUET（dual-scale graph transformer，CVPR 2022 Oral）、ETPNav（online topo map + Tryout 避障，TPAMI 2024；RxR-CE +26 SR 范式级跃升）、Efficient-VLN（progressive memory + dynamic DAgger，R2R-CE 64.2% SR 以 282 H800·h 训练成本拿到 SR-vs-cost 帕累托前沿）、ETP-R1（首次把 closed-loop GRPO 搬到 graph-based VLN-CE，R2R-CE test-unseen 64 SR）。

核心优势：

显式 global memory 支持 long-range backtracking，抑制 oscillation 失败模式（ETPNav Table 7 +3.29 SR）；
Waypoint 级 high-level action space 等价于 RL 的 token，天然支持 closed-loop multi-turn GRPO（ETP-R1）；
GASA（Graph-Aware Self-Attention）把 all-pair shortest distance 作为 attention bias，是轻量有效的结构先验。

实际效果与瓶颈：R2R-CE SR 64% 是 2026-04 supervised SOTA 上限，但依赖 pretrained waypoint predictor（CWP）+ ground-truth pose + 预定义 navigable 节点，sim-to-real 部署仍需工程化。方法层面已比较成熟，但被 LLM-based agent 路线部分替代的风险真实存在——ETP-R1 用 GRPO 续命是目前的补救策略。

2) Streaming VLA（Video-LLM as end-to-end navigator）

思路：把 VLN-CE 建模成 multi-turn dialogue，Video-LLM 吃 egocentric RGB 流输出离散 atomic action（FORWARD/LEFT/RIGHT/STOP + 可选数值参数）；通过 KV cache 复用 + memory compression 控制长程上下文。

代表工作演化：

NaVid（RSS 2024）：首个 video-based VLM for VLN-CE，不对称 token 预算（current 64 token / history 4 token），直接输出 “FORWARD 75 cm” 而非 waypoint 坐标。
NaVILA（RSS 2025）：引入 language-as-mid-level-action + dual-frequency 架构，R2R-CE SR 54%，real Unitree Go2/H1/T1 跨形态 88% SR；YouTube touring video + MASt3R metric pose 是最 reusable 的数据 pipeline。
StreamVLN（ICRA 2026）：slow-fast context——fast sliding-window KV（N=8 dialogue）+ slow voxel-pruned long memory，RGB-only R2R SR 56.9 / SPL 51.9；voxel pruning 剪 20% token 同时涨 1% SR。
PROSPECT（2026-03）：SigLIP + CUT3R 3D fusion + JEPA-style latent prediction 分支（训练时附加，推理时砍掉，零 latency 代价），R2R-CE SR 58.9 / SPL 54.0；CUT3R 因 absolute scale 优于 VGGT 系在长 episode 上。
DyGeoVLN（2026-03）：自研 dynamic geometry FM（π³/VGGT + Depth Anything residual + DyHM3D 数据）+ pose-free occupancy voxel pruning，单目 RGB R2R-CE SR 60.8——反超 panoramic RGB-D + waypoint predictor。
NavFoM（2025-09）：generalist navigation VLM，TVI tokens（view angle + time step indicator）+ BATS（budget-aware token sampling），统一 VLN / OVON / tracking / autonomous driving 四类任务，RxR-CE SR 64.4。

核心优势：

Single-view RGB 即可竞争 panoramic RGB-D + waypoint（NaVILA、StreamVLN 早已证明，DyGeoVLN 进一步反超），部署门槛低；
Language-as-mid-level-action 让 VLM 可直接跨 embodiment 迁移（NaVILA Go2 → T1 零样本）；
KV cache 复用把 per-step prefill 成本从 O(T²) 降到 O(T)（StreamVLN Figure 5）。

实际效果与瓶颈：

R2R-CE val-unseen SR 目前在 54–60% 区间，与 graph-based 的 64% 仍有 4–10 pt gap；
训练成本高（StreamVLN 1500 A100·h / NavFoM 4032 H100·h），Efficient-VLN 证明通过 recency-aware memory 可压到 282 H800·h；
Long-horizon 一致性、动态障碍下的 reactive 避障、VLM 低频推理下的闭环控制仍是限制。

3) Zero-shot MLLM with Explicit World Representation

思路：冻结大型 MLLM（GPT-5/Gemini/Qwen3-VL），用确定性 pipeline 维护显式 metric world representation（TSDF / topological graph / scene graph），把 spatial estimation 解耦给工程组件，semantic planning 交给 MLLM 在渲染的 BEV + ego view + coordinate grid 上选 waypoint。

代表工作：NavGPT（AAAI 2024，早期 caption-based LLM-as-VLN-agent 的 existence proof，R2R val-unseen SR 34%）、GTA（zero-shot VLN-CE SOTA：R2R-CE SR 48.8%，EWR plug-in 在 NavGPT/OpenNav/SmartWay 上一致涨分）、SpatialNav（放宽到 “允许 pre-exploration” 设定，分层 spatial scene graph + compass-style 全景 + remote object localization，GPT-5.1 后端 R2R-CE zero-shot SR 64.0%，逼近监督 SOTA）。

核心优势：

Sim-to-real gap 小：MLLM 看的是 BEV + topo graph 这种 domain-invariant representation，不依赖 raw pixel 训练分布——GTA TurtleBot 40% / drone 42% real SR vs supervised VLN-BERT 16% / RDP 20%，是这类方法最强的卖点；
Plug-in reusable：EWR 作为 substrate 跨 baseline 一致涨分，证明 “explicit metric representation > implicit linguistic memory”；
Backbone 越强越好：GPT 5.1 > Gemini 2.5 Pro > Qwen3-VL-235B（GTA Table IV 单调上升），方法”半衰期”长。

实际效果与瓶颈：

与监督 SOTA 仍有 10–15 pt 绝对 SR gap（GTA 48.8 vs Efficient-VLN 64.2 on R2R-CE）；
核心性能依赖闭源 frontier MLLM，开源 backbone 显著掉点（GPT-5.1 → Qwen3-VL 掉 10 pt）；
SpatialNav 通过允许 pre-exploration（SLAM 先扫场景）把 zero-shot 拉到 64%，但 “zero-shot” 的定义因此被 relax。

4) GRPO-based Reinforcement Fine-Tuning

思路：把 DeepSeek-R1 的 RLVR / GRPO 范式搬到 VLN——通过 verifiable reward（action correctness + path fidelity + 时间衰减）对 LVLM-based VLN agent 做 RL 微调。

代表工作：VLN-R1（Qwen2-VL + Long-Short Memory + Time-Decayed Reward，R2R val-unseen 从 23.8 → 30.2 SR；2B-RFT 追上 7B-SFT；10K 样本跨域迁移超过 1.2M 完整数据）、ETP-R1（graph-based VLN-CE 上首次 closed-loop GRPO，R2R-CE test-unseen 64 SR）。

核心发现：

Small-model lift：RFT 让小模型追上大模型 SFT，复刻 DeepSeek-R1 现象；
Sample efficiency 远高于 SFT：10K RFT > 1.2M SFT；
工程常识与 LLM-RL 社区有出入（ETP-R1）：dropout 必须开，temperature scaling 有害，strict on-policy（μ=1）最好；
Reward design 是杠杆：Time-Decayed Reward（γ^k 指数衰减）比 hard / uniform reward 关键。

实际效果与瓶颈：

RFT 阶段显著提升，但本质上是在 SFT 强基础上的精修（cold-start RL 几乎失败，SR ~2%）；
Graph-based（ETP-R1）上的 closed-loop GRPO 比 LVLM-based（VLN-R1）的 open-loop RFT 更自然——waypoint-level action space 天然 multi-turn。

路线综合对比

路线	代表方法	R2R-CE SR	Obs	训练成本	Sim-to-real	核心权衡
Graph-based	Efficient-VLN	64.2%	Pano+Depth	282 H800·h	需 waypoint predictor + GT pose	SOTA 上限高但依赖预训练组件
Graph + GRPO	ETP-R1	64.0% (test)	Pano+Depth	较高	同上	closed-loop RFT，需要三阶段训练
Streaming VLA	PROSPECT	58.9%	Mono RGB	~2500 A800·h	单 RGB 部署友好	RxR 长指令增益大；code 未开源
Streaming VLA	DyGeoVLN	60.8%	Mono RGB	未披露	单目 + 自推 pose	动态几何 FM 是主要变量
Streaming VLA	StreamVLN	56.9%	Mono RGB	1500 A100·h	Unitree Go2 部署	KV cache 复用的 design pattern
Streaming VLA	NaVILA	54.0%	Mono RGB	~千卡时	Go2/H1/T1 跨形态 88% SR	language-as-mid-level-action
Zero-shot EWR	SpatialNav	64.0%*	Pano + SSG	零训 (推理)	需 pre-exploration	framing stretch；open-model 掉点
Zero-shot EWR	GTA	48.8%	Mono RGB-D	零训 (推理)	wheeled 40% / drone 42% real	sim-to-real gap 最小
RFT (LVLM)	VLN-R1	30.2%	Mono RGB	SFT + GRPO	未量化	sample-efficient cross-domain
Generalist	NavFoM	61.7%	Multi-view	4032 H100·h	5 类 embodiment	VLN + OVON + tracking + driving 统一

* SpatialNav 使用了 pre-exploration，严格来说不是纯 online zero-shot。

关键观察：

Pano+Depth vs Mono RGB 的 gap 正在消失：graph-based（Pano+Depth）64%、streaming VLA（Mono RGB）60%，差距 ~4 pt 且随 3D foundation model 进步快速缩小（DyGeoVLN 已反超）。
Closed-loop > open-loop RFT：VLN-R1（open-loop SFT+GRPO）30.2 vs ETP-R1（closed-loop GRPO）64——RFT 要起效必须有合适的 action abstraction。
Zero-shot 的真正卖点是 sim-to-real：sim 上 zero-shot 仍比 supervised 差 4–15 pt，但 real-world 上 domain-invariant representation 让它反超（GTA real 40%+ vs supervised 16–20%）。
数据多样性比模型大小更关键：Efficient-VLN（0.45B 级方案）以 282 H800·h 打过 NavFoM（7B，4032 H100·h），训练策略（recency-aware memory + dynamic DAgger β）的杠杆远大于 scaling。

Datasets & Benchmarks

Training Datasets

VLN 主流训练资源（按规模）：

Dataset	场景	规模	用途	备注
R2R (Anderson 2018)	MP3D 90 scenes	7,189 trajectories × 3 instr	fine-grained 指令	VLN 的 de facto 起点
R4R (Jain 2019)	MP3D	~30K	R2R 拼接	长路径 variants
RxR (Ku 2020)	MP3D	126K instr (en/hi/te)	多语言、长指令 (~120 词)	平均 15 m
R2R-CE (Krantz 2020)	MP3D + Habitat	R2R 迁移	continuous action space	当前主 benchmark
RxR-CE	MP3D + Habitat	RxR 迁移	长程 continuous + sliding-forbidden	大底盘（0.18m）
REVERIE (Qi 2020)	MP3D	10K	goal-oriented，含 object grounding	高层指令
SOON (Zhu 2021)	MP3D	4K	目标导航	object-oriented
R2R-EnvDrop (Tan 2019)	MP3D augmented	大规模	environment augmentation	NaVILA / StreamVLN 均用
ScaleVLN	HM3D 700 scenes	3M	大规模 augmentation	StreamVLN 仅用 150K 子集即 SOTA
YouTube touring（NaVILA）	real urban + indoor	2K 原 video → 20K trajectory	real-world navigation	MASt3R metric pose 关键
DyHM3D（DyGeoVLN）	HM3D + skeletal human	~50K	动态障碍训练	人形运动数据增强
Sekai + SLAM（NavFoM）	web video	2.03M	navigation foundation model	VLM 标指令 + SLAM 标 trajectory

Benchmarks & SOTA

R2R-CE Val-Unseen leaderboard（2026-04 精选，含单位统一）：

Method	Date	Obs	SR↑	SPL↑
DUET (2022)	discrete	Pano	72.0*	60.0
ETPNav (2023)	CE	Pano+Depth	57.0	49.0
NaVid (2024)	CE	Mono RGB	37.4	35.9
NavGPT (2024)	discrete	Text	34.0	29.0
Uni-NaVid (RSS25)	CE	Mono RGB	47.0	42.7
NaVILA (2025)	CE	Mono RGB	54.0	49.0
StreamVLN (2025)	CE	Mono RGB	56.9	51.9
NavFoM (2025)	CE	Multi-view	61.7	55.3
PROSPECT (2026)	CE	Mono RGB	58.9	54.0
DyGeoVLN (2026)	CE	Mono RGB	60.8	55.8
Efficient-VLN (2025)	CE	Pano+Depth	64.2	55.9
ETP-R1 (2025)	CE	Pano+Depth (test)	64.0	54.0
GTA zero-shot (2026)	CE	Mono RGB-D	48.8	41.8
SpatialNav zero-shot (2026)	CE	Pano+SSG	64.0*	—

* Discrete nav-graph；SpatialNav 使用 pre-exploration。

RxR-CE Val-Unseen（节选）：

Method	SR↑	SPL↑	nDTW↑
ETPNav	54.8	44.9	61.9
StreamVLN	52.9	46.0	61.9
PROSPECT	54.6	46.2	62.1
NavFoM (multi-view)	64.4	56.2	—
Efficient-VLN	67.0	54.3	—

Physical & embodied benchmarks（关注 embodied gap）：

VLN-PE (2025, ICCV 2025)：首个系统量化 embodied gap 的 physical benchmark。GRUTopia/Isaac Sim + humanoid (H1) / quadruped (Aliengo) / wheeled (Jetbot) 三类机器人 + RL locomotion controller。VLN-CE → VLN-PE 零样本 SR 相对下降 34%（NaVid 从 ~40 掉到 22.4）；camera height 是决定性变量；多模态融合（RGB+D）对光照退化抗性显著优于纯 RGB。
VLN-CE-Isaac（NaVILA 子产品）：R2R 场景从 Habitat 抽象搬到 Isaac 物理仿真，Go2 NaVILA-Vision SR 50.2 / SPL 45.5，H1 45.3 / 40.3，接近 Oracle low-level 上界 51.3。
VLNVerse (2025)：Isaac Sim 上 263 全新手工可交互 USD 场景（首次真正 new scenes，Table 1 揭示 R2R 之后几乎所有 benchmark 在 MP3D 原 90 scenes 上反复重标注），Strict 物理设定下 MLLM SR 相对 Tel-Hop 下降 10 pp（25.5→16.7），foundation model 在新场景下泛化明显退化（InternNav-N1 coarse SR 仅 17.5%）。
HA-VLN（dynamic-human-aware VLN）：DyGeoVLN SR 0.40 > StreamVLN 0.33，动态障碍下纯 streaming VLA 明显退化。
LH-VLN (2025, CVPR 2025)：long-horizon VLN（2-4 subtask，平均 150 steps），所有 baseline 在 2-3 subtask 长度上 SR = 0；MGDM baseline ISR/CSR/CGT 也仅个位数，揭示 single-stage VLN 训练对多阶段顺序推理几乎无迁移。
NaviTrace (2025)：VQA-style 2D image-space trace 预测，1000 scenarios × 3000 expert trace × 4 embodiment（human/legged/wheeled/bicycle）。Gemini 2.5 Pro 34.4 vs Human 75.4；goal localization 是主要失败模式；VLM 几乎不根据 embodiment 调整轨迹（aggregate 分数跨 embodiment 几乎相同）。

Outdoor / aerial benchmarks：

TouchDown (Chen 2019)：Google Street View 城市户外导航。
AerialVLN / ANDH / OpenUAV / OpenFly / LANI：游戏引擎 / AirSim 的 UAV VLN。
AirNav (2026)：基于 SensatUrban 真实航拍点云的 143K 样本 UAV-VLN；persona-conditioned instruction（10 种社会角色）提升 naturalness；Qwen2.5-VL-7B + SFT + GRPO test-unseen SR 51.75%，real-world 仍 30%。

Simulators

Simulator	场景来源	特点	代表用法
Matterport3D (MP3D)	90 real indoor scans	基础场景	R2R / REVERIE / CVDN
Habitat	MP3D + HM3D	离散 / CE 仿真	VLN-CE 主流
AI2-THOR	procedural	强交互，空间小	ALFRED / TEACh
GRUTopia / Isaac Sim	MP3D + custom	全物理 + humanoid	VLN-PE / NaVILA / VLNVerse
AirSim	procedural	UAV	AerialVLN
CARLA	urban driving	自驾	LCSD / CDNLI

Open Problems

Embodied gap：VLN-CE 上的 SR 在 Strict 物理 / 真实 embodiment 下系统性下降（VLN-PE -34%、VLNVerse -10 pp），揭示现有方法隐式 overfit 到 MP3D 默认 1.2–1.6 m 相机高度、假设无碰撞 teleport、忽视底盘。核心问题：如何显式建模 physical embodiment、camera height、collision dynamics？VLN-PE 的 multi-robot co-training 是初步答案，但缺乏系统性架构贡献。
Long-horizon / building-scale navigation：现有 benchmark 路径长度多在 9–15 m（R2R / RxR），LH-VLN 的 150-step 任务让所有 baseline 在 2-3 subtask 长度上 SR = 0；PROSPECT 在 ≥100 步任务上 +4 pp SR。当前 memory pipeline（sliding window + token pruning）在 long horizon 上仍缺乏一致性保证（StreamVLN 自承），state compression 在长 trajectory 上崩（Efficient-VLN Table 4：RxR 上 recursive memory 比 progressive memory 掉 7 pt）。
Goal localization > path shaping：NaviTrace 的拆解揭示 VLM 的主要失败模式是找目标而非画路径——只预测 goal 29.65 / 完整 34.38 / oracle-goal 51.89。这与 VLN-CE 的 failure 分析（“走到对的房间但错位置” 占 23%）一致。悬而未决：zero-shot MLLM 是否能通过更强的 open-vocabulary grounding 提升 goal localization，而不依赖更大的 backbone？
动态环境（人、移动物）：真实部署绕不开动态障碍，但 HA-VLN / Habitat 3.0 的评测仍稀缺。DyGeoVLN 表明 static geometry FM（VGGT / π³）在动态场景崩坏是主因，data-driven（DyHM3D skeletal human）可补救但非架构级解决。Dynamic 3D foundation model 是否需要 explicit 时序建模是 open。
Embodiment awareness：NaviTrace 显示 VLM 不根据 embodiment（人/四足/轮式/自行车）调整策略。NaVILA 的 “language-as-mid-level-action” 通过替换 low-level policy 实现跨形态，但 H1 humanoid 仍比 Go2 quadruped 低 5 pt，说明 hierarchy 不能完全掩盖 embodiment-specific 需求。Embodiment-conditioned action space 是被忽视的设计维度。
Data recipe 的可加性边界：StreamVLN 的 ablation 显示 DAgger +5.5 SR、RxR co-train +7.8 SR、ScaleVLN +2.9 SR、MMC4 +2.0 SR 可叠加得到 SOTA，但这些 component 是否互为替代（mutually replaceable）未被 controlled 分析。“数据规模正交增量” 是 empirical 观察而非原理性保证。
Sim-to-real gap 的量化：2024 survey 已点出但至今无系统量化（“sim 60 → real 16–20% 掉幅多少由哪些因素造成”）。GTA（sim 48.8 → real 40%）和 NaVILA（sim 54 → real 88% on 不同 setup）提供了两种走向极端的 data point，但缺 controlled head-to-head。
VLN ↔ VLA 的结构同构：VLN-VLA-Unification 指出 VLN 的 hierarchical planner + waypoint predictor 与 VLA 的 high-level planner + low-level action decoder 在架构上高度对应；NaVILA 已经开始跨——把 VLN 重构为 navigation-focused VLA。但 shared spatial representation（topological map / 3D scene graph / voxel）能否直接服务 manipulation 仍是 open，ConceptGraphs / MTU3D 是候选但还未被系统验证。
Benchmark 停滞与破局：VLNVerse 直接指出 “new scenes = 0” 是 VLN 过去 5 年的真正瓶颈。263 个新场景是 first step，但能否成为 de facto 标准取决于社区采纳——目前 code 尚未完全开源，leaderboard 也未建立。
GRPO on VLN 的 reward design：VLN-R1 的 Time-Decayed Reward 是初步配方；ETP-R1 展示 GRPO 对 dropout / on-policy degree 的敏感性与 LLM-RL 常识不一致。什么是 VLN 最合适的 verifiable reward？action correctness、path fidelity（nDTW）、goal-reaching、collision penalty 如何组合仍缺 principled study。

DomainMap 更新建议

本次调研新增的可纳入 VLN 的内容：

新增 Established Knowledge 候选：
- “Recency-aware memory > uniform compression”（Efficient-VLN ablation：R2R SR +2.6 / RxR SR +3.0）与 state-based memory 在长 trajectory 上崩（RxR -7 pt），这是 memory design 的可迁移 lesson。
- “Closed-loop GRPO on graph-based VLN > open-loop RFT on LVLM”（ETP-R1 64 SR vs VLN-R1 30.2 SR），涉及 action-space-level design 与 RL 适配。
- “Dynamic geometry FM（depth residual + skeletal-human data）显著提升动态 VLN”（DyGeoVLN HA-VLN 0.33→0.40 SR）。
新增 Open Questions 候选：
- “Embodied gap 的量化”——VLN-CE → VLN-PE 零样本 SR -34%（相对），camera height 是决定性变量。
- “Benchmark 的真实场景多样性”——VLNVerse Table 1 揭示几乎所有 post-R2R benchmark “new scenes = 0”。
- “Goal localization 是 VLM navigation 的主要瓶颈”（NaviTrace 拆解）。
Active Debate 需更新：
- “Mono RGB vs Pano+Depth” 的 gap 正在消失（DyGeoVLN 60.8% Mono 已反超部分 Pano+Depth 方法）。
- “Zero-shot MLLM vs supervised” 随 MLLM 升级快速缩小（GPT 5.1 > Gemini 2.5 Pro > Qwen3-VL 单调上升；SpatialNav GPT-5.1 backbone 达到 monitored SOTA 水平，但依赖 pre-exploration）。

调研日志

调研日期: 2026-04-23 本次 Survey 新增论文（rating ≥ 2）：29 篇在 vault 中已收录的 VLN 相关论文笔记 + 本次 digest 的 4 篇（1 篇 survey + 3 篇新 benchmark / 方法）：

Survey: 2407-VLNFoundationSurvey
新 benchmark / 方法: 2603-DyGeoVLN, 2512-VLNVerse, 2510-NaviTrace
已有 VLN 笔记: 2202-DUET, 2304-ETPNav, 2305-NavGPT, 2402-NaVid, 2412-LHVLN, 2412-NaVILA, 2502-MapNav, 2502-VLNav, 2506-VLNR1, 2507-StreamVLN, 2507-VLNPE, 2507-MTU3D, 2509-NavFoM, 2509-AnywhereVLA, 2509-OmniEVA, 2512-EfficientVLN, 2512-ETPR1, 2601-AirNav, 2601-SpatialNav, 2602-GTA, 2603-PROSPECT, 2210-VLMaps 等

参考 Survey:

主锚点: Vision-and-Language Navigation Today and Tomorrow (TMLR 2024) — 采用其 LAW 框架（World / Human / Agent）作为结构参考，但本 Survey 由于 domain activity 以 2025-2026 为主，改按技术路线（4 条）而非 LAW 三分组织，以更贴合当前讨论。

方法论说明：

本 Survey 定位为 VLN 的 delta 报告，DomainMap 已 Established 的内容不重述，聚焦 2025-2026 窗口内新方法、新 benchmark、新 debate；
SR / SPL 数字来自各论文笔记已验证过的表格；因各方法数据 regime 不同（是否用 ScaleVLN / MMC4 co-train），绝对数字对比需谨慎看 footnote；
“Zero-shot” 的定义在 SpatialNav 把 pre-exploration 纳入后有争议，本 Survey 保留其原标记但加 * 提示。

未能获取: none

MindFlow

Explorer

Vision-Language Navigation Survey

Overview

Problem & Motivation

技术路线对比

1) Graph-based Supervised（topological planner）

2) Streaming VLA（Video-LLM as end-to-end navigator）

3) Zero-shot MLLM with Explicit World Representation

4) GRPO-based Reinforcement Fine-Tuning

路线综合对比

Datasets & Benchmarks

Training Datasets

Benchmarks & SOTA

Simulators

Open Problems

DomainMap 更新建议

调研日志

Table of Contents