NaVILA: Legged Robot Vision-Language-Action Model for Navigation

Summary

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

核心: 把 VLA 拆成 high-level VLM（生成”move forward 75cm”这类语言化 mid-level action）+ low-level vision-based RL locomotion policy 的两级架构，让 legged robot 能跑 VLN-CE 并迁移到真机

方法: 基于 VILA 的 image-based VLM，融合 R2R-CE / RxR-CE / EnvDrop / ScanQA / 2K YouTube 人类游览视频（通过 MASt3R 估计 metric pose 提取 trajectory）+ general VQA 做 SFT；底层用 single-stage PPO + LiDAR height map 训练 vision-based locomotion

结果: R2R-CE Val-Unseen SR 54%（+17% over prior SOTA，且仅用 single-view RGB 就超过用 panoramic+depth+odometry 的方法），ScanQA CIDEr 102.7 超过依赖 3D scan 的 LMM；real-world Unitree Go2/H1 + Booster T1 上 25 条指令 88% SR，跨形态零迁移

Sources: paper | website | github

Rating: 3 - Foundation（legged VLN 方向的奠基工作——RSS 2025 接收，“language as mid-level action” 范式 + YouTube video pipeline + VLN-CE-Isaac benchmark 已被后续 legged VLN 工作作为 de facto baseline 引用）

Key Takeaways:

语言作为 mid-level action 的接口：把 VLA 的输出从低维 joint command 抽象到 “turn right 30 degrees” 这种语言短语，自然解耦感知-推理与运动控制；同一个 VLA 可以替换 low-level policy 部署到 quadruped、humanoid（Go2/H1/T1）上零样本切换
Dual-frequency 架构：VLM 因体量大只能低频跑（1-2Hz），locomotion policy 高频跑（real-time），让 obstacle avoidance 和 reasoning 在不同时间尺度上并行——这是大模型上机器人的一个 robust 的工程模式
YouTube 人类游览视频是 navigation 的可用数据源：用 MASt3R 做 metric-pose estimation + entropy-based sampling + VLM/LLM 自动 captioning 把 2K 原视频变成 20K 监督 trajectory，是这篇论文里最 generalizable 的 contribution
Single-stage RL + LiDAR height map 在 locomotion 上打过 teacher-student distillation：collision rate 从 ROA 的 3.09 降到 0.81，说明对 vision-based locomotion 来说，distillation 不是必须的工程范式

Teaser. NaVILA 实机演示——VLM 处理 RGB egocentric 视频生成语言指令，locomotion policy 在真实环境中执行长程导航和障碍避让。

Problem & Motivation

VLN 在过去几年里从 discrete graph navigation（MP3D 节点跳转）走向 continuous environment（VLN-CE，Habitat 模拟器内连续移动），但仍存在两个未被打通的环节：

Continuous setting 仍然在 wheel-based / point-mass 抽象之上——agent 可以穿过 10cm 沙发缝隙，根本不考虑实体机器人物理约束。 legged robot 在 VLN 里几乎是空白
End-to-end VLA → joint action 的范式不自然：VLM 是用语言 / 图像数据预训练的，硬把它的输出 quantize 成低维 joint command 既丢掉 LLM 的语义优势，又撞上 sim-to-real gap

NaVILA 的 first-principles 回答是：让 VLA 输出仍然停留在语言域——“move forward 75cm”、“turn left 30 degrees”——再让一个独立的 RL locomotion policy 把这些语言短语解释成 joint trajectory。这样：

VLM 训练数据不必是 robot demonstration，可以用 R2R-CE 的 oracle action、YouTube 人类视频、ScanQA 这种异构数据混训
同一个 VLA 可以驱动不同形态机器人（quadruped / humanoid），只需替换 low-level policy
大模型低频跑 / locomotion 高频跑的 dual-frequency 模式天然 robust

这其实和 SayCan / RT-Hierarchy 系的”LLM 出 skill name + 底层 skill 执行”思路一脉相承，但 NaVILA 的关键差异是输出的不是 discrete skill ID，而是带 continuous 数值参数的语言短语（角度、距离），这让 mid-level action 既保留语义性又有空间精度。

Method

NaVILA 是一个 2-level framework：上层是 VLA（基于 VILA 微调），输出语言化的 mid-level action；下层是 vision-based RL locomotion policy，把语言指令解释成 12 自由度的 joint position 输出。

Figure 2. NaVILA 整体架构——VLA 处理 single-view egocentric RGB 序列输出自然语言 mid-level action，locomotion policy 把它转成 joint movement。

Backbone 选择 image-based VLM 而非 video VLM。理由是 image-text pretraining 数据规模远超 video-text，跨场景泛化更好。具体用 VILA（Vision-Language Architecture），三段式结构：vision encoder → MLP projector → LLM (Llama3-8B 量级)。

Navigation prompt 设计——VLN 任务里 “current frame” 和 “history frames” 角色不同：current 决定下一步动作，history 是 memory bank。NaVILA 的处理：

强制保留最新一帧作为 current observation，再从过去 t-1 帧均匀采样 + 强制保留第一帧
在 prompt 里用 textual cue 区分："a video of historical observations: <frames>... current observation: <frame_t>"
不引入 special token——保持 LLM 输入输出都在 language domain，复用预训练 reasoning 能力

SFT 数据 blend（4 类）：

Navigational data from real videos——2K YouTube egocentric touring videos → 20K trajectories（关键贡献，下面详述）
Navigational data from simulations——R2R-CE 和 RxR-CE，用 shortest path follower 在 Habitat 内生成 oracle action 序列。 trick：合并最多 3 个连续相同动作（两个 forward 25cm 合并成 forward 50cm），既减小数据集又增加动作多样性，并对 stop action 做 rebalancing
Auxiliary navigational data——EnvDrop augmented instructions、ScanQA 3D QA（用 multi-view RGB 而不是 3D scan）、trajectory summarization
General VQA datasets——保住 broad reasoning capability

YouTube 人类视频数据 pipeline（这是 NaVILA 最 reusable 的方法贡献）：

Figure 4. 把 YouTube 人类游览视频转成 continuous-environment navigation supervision 的数据 pipeline——entropy-based sampling 切 trajectory，MASt3R 估计 metric camera pose 抽 step-wise action，VLM/LLM 自动生成 instruction。

Entropy-based sampling 把长视频切成有信息量的 trajectory 段
MASt3R 做 metric-pose estimation（注意是 metric scale，不是 up-to-scale）—— 这是把”人类视频 → 可监督 action label”打通的关键技术依赖
VLM-based captioning + LLM rephrasing 自动生成 instruction

Inference：用 regex parser 从 LLM 输出抽取 action type（forward / turn left / turn right / stop）+ 数值参数（距离/角度）。论文报告”all actions across all experiments are successfully matched and mapped”——这种 hard parsing 在 deployment 上简单粗暴但 reliable。

II-B Low-level：vision-based locomotion policy

Action space：只控制 12 个腿部 joint motor（base 6 DoF 自由），joint position target → torque（PD 控制）

Observation：

Critic 用 privileged terrain height scan + proprioception
Actor 只用 proprio history（无 linear velocity）+ 从 LiDAR point cloud 重建的 2.5D height map

Figure 5. 从 LiDAR point cloud 重建 height map：(a) Go2 在仿真里执行速度命令，红点为 raycast；右图为预处理后的 height map。 (b) 玻璃面前的安全 locomotion——top-down height map 能检测到玻璃，而 depth/RGB 不行。

LiDAR height map 的工程细节：

Unitree L1 LiDAR：360°×90° FoV，15Hz
每个 voxel 取最低值；过去 5 帧做 max filter 平滑
选 LiDAR 而非 depth/RGB：在强阳光、玻璃面这种 corner case 上 robust

Single-stage RL（不做 teacher-student distillation）：

之前主流做法是先训 privileged policy，再 distill 给 vision policy
NaVILA 直接用 PPO 训 vision policy，靠 Isaac Lab 的 ray-casting 加速（>60K FPS on RTX 4090）
Command 接口：VLM 输出的 fixed action set {move forward, turn left, turn right, stop} 映射到固定 velocity command {0.5 m/s, π/6 rad/s, -π/6 rad/s, 0}，按目标距离/角度计算执行时长

这里其实牺牲了一点表达力——所有 forward 都用 0.5 m/s 跑同样长的时间，没有真正的 continuous velocity tracking。但好处是 sim-to-real 简单，且 VLM 输出的 fine-grained 数值（“forward 75cm”）通过执行时长来体现，而不是通过 velocity magnitude。

Key Results

High-level VLA on VLN-CE benchmarks

Table I 摘要（R2R-CE / RxR-CE Val-Unseen）：

Method	Obs	R2R SR ↑	R2R SPL ↑	RxR SR ↑	RxR SPL ↑
GridMM* (waypoint)	Pano+Depth+Odo	49.0	41.0	-	-
ETPNav* (waypoint)	Pano+Depth+Odo	-	-	-	-
NaVid (video VLM)	Single RGB	37.4	35.9	-	-
NaVILA	Single RGB	54.0	49.0	44.0	35.0

*indicates use of simulator pre-trained waypoint predictor

关键观察：仅用 single-view RGB 就超过用 panoramic + depth + odometry 的方法，且不依赖 simulator pretrained waypoint predictor。 +17% SR over prior SOTA 在不靠 waypoint trick 的赛道上是显著优势。

Cross-dataset generalization：仅在 R2R 上训，零样本评估 RxR Val-Unseen，比 NaVid 高 +10% SR——说明 representation 学到的不只是 R2R-specific pattern。

Spatial scene understanding (ScanQA)

Model	CIDEr ↑	EM ↑	Input
LEO (3D LMM)	101.4	24.5	3D scan
Scene-LLM*	80.0	27.2	3D scan
NaviLLM (2D VLA)	75.9	23.0	RGB
NaVILA (8 frames)	95.1	27.0	RGB
NaVILA (64 frames)	102.7	28.6	RGB

只用 multi-view RGB 就追平甚至超过依赖 3D scan / depth + camera pose 的 3D LMM。

Locomotion policy（Table V）

Method	Linear Vel Err ↓	Angular Vel Err ↓	Collision Rate ↓
ROA (BCLoss)	0.189	0.152	3.25
ROA	0.161	0.152	3.09
NaVILA	0.066	0.113	0.81

Single-stage 比 distillation-based 全面更好，特别是 collision rate 降低 3.8 倍。

VLN-CE-Isaac benchmark（自家提出）

Figure 6. VLN-CE-Isaac benchmark 可视化——Isaac Sim 高保真物理仿真，Go2 / H1 等 legged robot 部署在 R2R 场景中。

Setup	Method	SR ↑	SPL ↑
Go2	NaVILA-Blind (proprio only)	36.2	33.3
Go2	NaVILA-Vision (LiDAR)	50.2	45.5
H1	NaVILA-Blind	24.4	21.0
H1	NaVILA-Vision (height scan)	45.3	40.3
Oracle (perfect low-level)	-	51.3	46.9

Vision policy 比 blind 高 +14%（Go2）/ +21%（H1）SR；NaVILA-Vision 在 Go2 上几乎追平 Oracle low-level（50.2 vs 51.3），说明 vision-based locomotion 在物理仿真里基本不再是瓶颈。 H1 上仍有 6 个点 gap，humanoid 的 footing 比 quadruped 难。

Real-world deployment

25 条指令 × 3 次重复，Workspace / Home / Outdoor 三类环境，simple vs complex instruction：

NaVILA on Unitree Go2: simple SR 1.00 / 1.00 / 1.00（across envs）, complex 0.80 / 0.67 / 0.83
NaVILA on Booster T1（humanoid）: 直接用同一个 VLA 不重训，simple 0.93, complex 0.67
vs GPT-4o baseline：NaVILA 全面碾压，特别在 complex 指令上（GPT-4o complex SR ≤0.33）

Human touring video 的 ablation：去掉 YouTube 数据后（NaVILA†），outdoor 场景 SR 从 1.00 / 0.83 跌到 0.00 / 0.00——说明 YouTube 数据对 outdoor / out-of-distribution 泛化是 critical 的。

Video. 真实世界部署演示（Unitree Go2 + LiDAR）。

Video. 跨形态部署：Booster T1 humanoid 上无需重训直接迁移。

Video. 数据 pipeline：YouTube 人类游览视频 → trajectory + instruction 对。

关联工作

基于

VILA ([VILA Family of VLMs, NVIDIA])：image-based VLM backbone，三段式 vision encoder + MLP projector + LLM；NaVILA 从 stage-2 pretrain checkpoint 开始 SFT
MASt3R：metric-pose estimation in the wild，是把 YouTube 视频转成可监督 trajectory 的关键技术依赖
Habitat / VLN-CE：simulated continuous VLN 的 benchmark 平台
Isaac Lab / Isaac Sim：locomotion policy 训练 + VLN-CE-Isaac benchmark 的物理仿真环境
PPO：locomotion RL 训练算法

对比

NaVid：同样是 single-view RGB 的 video VLM for VLN，NaVILA 比它 R2R SR 高 17%；架构差异在 NaVid 用 video encoder，NaVILA 用 image-based VLM + 显式区分 current/history frame
GridMM / ETPNav 等 waypoint-based 方法：依赖 simulator 预训练的 waypoint predictor，强是强但泛化差；NaVILA 不用 waypoint 也能赢
GPT-4o：作为 zero-shot baseline 在 real-world 测试中被 NaVILA 显著超越，特别是 complex 指令
ROA (Regularized Online Adaptation)：teacher-student distillation 的 locomotion baseline，被 single-stage RL 全面超越
3D LMM (LEO, Scene-LLM, 3D-LLM)：依赖 3D scan / depth 输入；NaVILA 仅用 multi-view RGB 就在 ScanQA 上追平/超越

方法相关

SayCan / RT-Hierarchy 系：同样是 high-level LLM + low-level skill 的两级架构思路；NaVILA 创新点在 mid-level action 是带连续参数的语言短语而非 discrete skill ID
π0 / π0.5：另一类 hierarchical VLA，用 language subgoal 驱动 flow-matching action expert；与 NaVILA 的关键区别是底层用 continuous flow policy 而非 RL locomotion，且面向 manipulation
RT-2：end-to-end VLA 直接输出 low-level action，是 NaVILA 想避开的范式
LH-VLN：long-horizon VLN，与 NaVILA 在长程任务能力上有相似关注点

论文点评

Strengths

语言作为 mid-level action 的接口设计很优雅——既保留 VLM 的语义推理能力，又通过数值参数（距离/角度）保留空间精度，且天然支持跨形态切换。这种 “language as action interface” 的范式在 manipulation 上也值得复制（语言化的 grasp / waypoint 描述）
YouTube 视频数据 pipeline 是真正可复用的方法贡献——MASt3R 给出 metric pose 是关键打通点，过去用 human video 只能做 pretraining / landmark grounding，这是首次直接拿来训 continuous navigation 的 supervision label
Single-stage vision-based locomotion 打过 teacher-student distillation（collision rate 0.81 vs 3.09）—— Isaac Lab 的 ray-casting + LiDAR height map 让单阶段 RL 在效率和性能上都赢，挑战了 legged locomotion 必须 distillation 的 convention
Real-world 评测扎实——25 条指令 × 3 次 × 3 场景 × 2 robot platform，不是常见的”挑几条 demo 给 SR 100%“，complex outdoor 也敢报 0.83
Dual-frequency 架构对部署 friendly——大 VLM 跑慢一点不影响 locomotion，这是把大模型上机器人的一个被验证的工程模式

Weaknesses

Mid-level action set 极度受限——只有 4 种动作（forward / turn left / turn right / stop），forward 全速 0.5m/s，转向 π/6 rad/s 固定。这意味着 “continuous value” 只通过执行时长间接体现，VLM 输出的 “forward 73cm” 和 “forward 75cm” 实际上无差别（都是固定速度跑 1.46s vs 1.50s）。这种粒度对精细操作不够（侧移、对角线移动、变速避障都不支持）
VLA 在低频跑导致 reactive obstacle avoidance 完全靠 locomotion policy——如果 VLM 决策周期是 1-2Hz，在动态障碍场景里高层 planner 来不及反应，全靠 height map + RL 兜底；论文里没有讨论 dynamic obstacle / 行人场景
MASt3R metric pose 估计在 in-the-wild 视频上的可靠性没有量化分析——pipeline 里这个环节失败会直接污染 trajectory label，但论文没报 noise level / 失败率
“Real-world 88% SR” 这个数字需要小心解读——25 条指令 × 3 次 = 75 trial，simple 占主导且 simple SR 几乎全 1.00，complex SR 在 outdoor 也只是 0.83。整体均值被 simple cases 拉高
跨 embodiment 迁移虽然演示了 Go2 → H1 → T1，但 H1 在 VLN-CE-Isaac 上 SR 仍比 Go2 低 5 个点，且需要重新训 H1 的 locomotion policy（不是真的 zero-shot；只有 VLA 是零迁移）。论文标题暗示的”通用 VLA”主要指 VLA 部分

可信评估

Artifact 可获取性

代码: inference + training 全开源（GitHub repo 列出了 train/eval scripts，locomotion code 在 legged-loco，benchmark 在 NaVILA-Bench）
模型权重: 已发布 a8cheng/navila-llama3-8b-8f（评估用 checkpoint）+ a8cheng/navila-siglip-llama3-8b-v1.5-pretrain（pretrain 起点）on HuggingFace
训练细节: 仅高层描述——附录 -C2 给了 VLA 超参，-C3 给了 locomotion 细节；但 SFT 数据混合的具体比例未完整披露
数据集: 部分公开——R2R / RxR / EnvDrop / ScanQA / Human 的 annotations 在 HuggingFace dataset 上；YouTube 人类游览原视频因版权只放 video IDs，需用户自己 yt-dlp 下载；EnvDrop 视频也需用户自己用 VLN-CE renderer 重渲染

Claim 可验证性

✅ “+17% SR on R2R-CE Val-Unseen vs prior SOTA”：Table I 数字清楚，对比的 baseline 公开（NaVid 等），可在公开 benchmark 上独立复现
✅ “single-stage RL 比 ROA distillation 更优”：Table V 三个 metric 都报了，code 开源可复现
✅ “VLA 跨 embodiment 零迁移到 Booster T1”：Table VI + 真机视频佐证；T1 上 simple SR 0.93 / complex 0.67 是 nontrivial 的迁移强度
⚠️ “88% real-world SR on 25 instructions”：trial 数 75 偏少；simple vs complex / 三类环境分布不均；GPT-4o baseline 是否在公平 prompt 下评估未细说
⚠️ “YouTube human videos critical for generalization”：ablation 在 outdoor 上 NaVILA† SR 0.00 vs NaVILA 1.00 的 gap 戏剧性强，但 trial 数小（每环境约 5-10 条 indoor + 几条 outdoor），不能完全排除噪声
⚠️ “first work to show direct training on human videos improves continuous navigation”：first 是结合 continuous + direct training 的 narrow 表述；human video 用于 navigation pretraining 此前已有工作（如 NaVid, EgoPlan）
❌ 没有明显的营销话术 claim

Notes

NaVILA 的本质 takeaway 不是”language is mid-level action”这句话，而是”VLA 输出可以是 structured language with numerical parameters”——这种 representation 在 manipulation 上其实更值得探索（“grasp the cup at 30cm to your right”），目前 manipulation VLA 大都还在 token-quantized continuous action 上挣扎
与 π0.5 的关键 architectural 对比：π0.5 用 language subgoal 驱动 low-level flow matching action expert（continuous, diffusion-style），NaVILA 用 language action 驱动 RL locomotion policy（discrete velocity command + duration）。两者都用 hierarchy，但 NaVILA 的 low-level 更”传统”（PPO + heuristic mapping），π0.5 的 low-level 更端到端。哪种范式更 scale？我猜 long-term 是 π0.5 这种 differentiable hierarchy 赢，但 NaVILA 的工程简洁性短期内更易部署
YouTube 视频数据 pipeline 能否用于 manipulation？——理论上人类操作视频比游览视频更难（需要 hand pose + object 6D pose），但配上 HaMeR + FoundationPose 这类 in-the-wild estimation tool 应该可行。这是一个值得跟进的 thread
❓ 论文没有报告 VLM 推理频率的具体数字。从 8B model + 8 frames 的体量推断应该是 1-2Hz，那么在动态障碍场景的 reactive 性能完全依赖 locomotion policy；这个 dual-frequency 架构在静态环境很 robust，但在人多 / 移动物体场景里 high-level decision 可能会延迟严重
❓ Mid-level action 的 4 类离散动作 + 固定速度，其实是个很强的 inductive bias / 限制。如果换成 humanoid 需要侧移、转身、蹲下，是否需要扩展 action vocabulary？这部分 paper 没讨论
VLN-CE-Isaac benchmark 是个有用的 community resource，把 R2R 场景从 Habitat 抽象搬到 Isaac 物理仿真，能更真实评估 legged platform 的 navigation——后续 VLN 论文应该用这个而不是只跑 Habitat

Rating

Metrics (as of 2026-04-24): citation=169, influential=26 (15.4%), velocity=10.18/mo; HF upvotes=0; github 589⭐ / forks=54 / 90d commits=0 / pushed 247d ago · stale

分数：3 - Foundation 理由：NaVILA 是 legged VLN 方向的奠基工作——把”language as mid-level action”范式 + YouTube 人类视频 pipeline + VLN-CE-Isaac 物理仿真 benchmark 一次性打通，RSS 2025 接收，且在 R2R-CE Val-Unseen 上 +17% SR、仅用 single-view RGB 即超越 panoramic+depth 方法（见 Strength 1-4）。相比 Frontier 档：这不是一般的 SOTA 刷分，而是范式 + benchmark + 数据 pipeline 三位一体的 foundational contribution，后续 legged VLN 工作几乎无法绕开它作为 baseline；缺点（固定 action set、低频 VLM）是工程局限，不削弱其奠基意义。

MindFlow

Explorer

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

Summary

Problem & Motivation

Method

II-A High-level VLA：把 VILA 改造成 navigation agent

II-B Low-level：vision-based locomotion policy

Key Results

High-level VLA on VLN-CE benchmarks

Spatial scene understanding (ScanQA)

Locomotion policy（Table V）

VLN-CE-Isaac benchmark（自家提出）

Real-world deployment

关联工作

基于

对比

方法相关

论文点评

Strengths

Weaknesses

可信评估

Artifact 可获取性

Claim 可验证性

Notes

Rating

Table of Contents