Summary

首个 streaming VLN 框架,通过 SlowFast 双速上下文建模策略(fast-streaming dialogue context + slow-updating 3D-aware memory context),在 VLN-CE benchmarks 上实现 SOTA 性能的同时保持稳定低延迟,并成功部署于真实机器人。

Problem & Motivation

Real-world VLN 需要 agent 处理连续视觉流并以低延迟生成动作,同时保持长程上下文。现有 Video-LLM 方法面临三角矛盾:fine-grained visual understanding、long-term context modeling 和 computational efficiency 难以兼得。基于帧采样的方法牺牲时间分辨率,基于 token compression 的方法丢失视觉细节,而每步刷新 dialogue context 导致大量冗余计算。StreamVLN 提出 hybrid slow-fast 策略同时解决这三个问题。

Method

整体架构

基于 LLaVA-Video 构建,扩展为支持 interleaved vision-language-action 的 multi-turn dialogue 模型。

Fast-Streaming Dialogue Context

  • Sliding window KV cache,保留最近 N 轮对话的 KV 状态
  • 通过 KV cache reuse 消除 >99% 的 prefilling 时间
  • 窗口外的历史状态 offload,非 observation tokens 直接丢弃

Slow-Updating Memory Context

  • Voxel-based spatial pruning: 利用 depth 信息将 2D image patches back-project 到共享 3D 空间,基于 3D spatial proximity 丢弃冗余 tokens
  • 约减少 20% input tokens,同时性能反而提升(去除时空冗余)
  • 保持高分辨率图像输入,不需要降低 visual resolution

Co-Training with Multi-Source Data

  • VLA 数据:450K R2R/R2R-EnvDrop/RxR + 300K ScaleVLN + 240K DAgger
  • VL 数据:248K VQA(LLaVA-Video-178K, ScanQA)+ 230K interleaved image-text(MMC4)

Key Results

  • R2R-CE Val-Unseen: SR 56.9%, SPL 51.9%, NE 4.98m(超越 ETPNav 等不使用全景/waypoint 监督的方法)
  • RxR-CE Val-Unseen: SR 52.9%, SPL 46.0%, NE 6.22m
  • ScanQA: BLEU-4 15.7, CIDEr 100.2(保持通用 VQA 能力)
  • Ablation: Voxel pruning 带来 +1.2% SR/+1.0% SPL(R2R);DAgger 数据 +5.5% SR
  • Real-world: 部署于 Unitree Go2 机器人,inference 0.27s/4 actions,在办公室/商场/户外均成功导航

Strengths & Weaknesses

Strengths:

  • SlowFast 设计优雅:fast path 解决计算效率,slow path 解决长程记忆,两者解耦且互补
  • Voxel-based spatial pruning 是 principled 的 token 压缩方案,利用 3D 几何信息而非简单的 temporal sampling
  • 真实机器人部署验证了方法的实用性,inference latency 稳定且低
  • 多源数据 co-training 有效保持了通用 VL 能力

Weaknesses:

  • 依赖 depth sensor(虽然只在 pruning 时使用),限制了纯 RGB 场景的适用性
  • 训练开销较大(后续 2512-EfficientVLN 指出其 GPU hours 远高于必要水平)
  • R2R-CE test 集结果未报告,difficult to assess generalization beyond val

Impact: 奠定了 streaming VLN 的 paradigm,后续 Efficient-VLN 等工作在此基础上优化效率。

Mind Map

mindmap
  root((StreamVLN))
    Problem
      连续视觉流低延迟推理
      长程上下文与效率矛盾
    Method
      Fast: Sliding Window KV Cache
      Slow: Voxel-based 3D Spatial Pruning
      Multi-source Co-Training
    Results
      R2R-CE SR 56.9%
      RxR-CE SR 52.9%
      Real robot deployment

Notes

  • 2506-VLNR1 形成有趣对比:StreamVLN 用 SFT + DAgger 路线,VLN-R1 用 RL fine-tuning 路线,代表 VLN 的两种训练范式
  • Voxel pruning 的 3D back-projection 需要 calibrated depth,这在 real-world deployment 中可能是瓶颈