Summary
提出 MoManipVLA,一个将预训练 fixed-base VLA 模型迁移到 mobile manipulation 的 policy adaptation 框架:利用 VLA 生成 end-effector waypoint,再通过 bi-level trajectory optimization(上层优化 base 位置,下层优化 arm 轨迹)生成物理可行的全身轨迹,在 OVMM benchmark 上比 SOTA 高 4.2% success rate,real-world 仅需 50 条 demonstration fine-tune。
Problem & Motivation
Mobile manipulation 需要协调 mobile base 和 robot arm,传统方法面临两个瓶颈:(1) 分别训练 navigation 和 manipulation 模块导致 compounding error;(2) end-to-end 方法需要大量昂贵的 demonstration 数据,难以 scale。现有 VLA 模型(如 OpenVLA)展示了强大的 generalization 能力,但只支持 fixed-base manipulation,无法生成 base-arm 协调动作。核心问题:如何在不重新收集大规模 mobile manipulation 数据的前提下,复用 VLA 的 generalization 能力?
Method
1. VLA Waypoint Generation
- 使用预训练 OpenVLA-7B 作为 waypoint generator,输入 RGB image + arm proprioception,输出 end-effector waypoint(base frame 下)
- 用 200 条 OVMM heuristic baseline 收集的 pick-and-place demonstration 做 LoRA fine-tune(10K epochs,4x RTX 3090)
- Waypoint 通过当前 base pose 变换到 world frame:
2. Motion Planning Objectives
三个 cost component 组成复合优化目标 :
Reachability Cost :用 Pinocchio IK solver 评估 end-effector 在给定 base pose 下的可达性。IK 迭代次数越多说明越接近 joint limit,无解则施加大惩罚 。
Smoothness Cost :约束相邻时间步 joint angle 和 base pose 的变化量,保证轨迹平滑。在 joint space 而非 task space 做 smoothness 约束。
Collision Cost :基于 ESDF(nvblox 构建)计算机器人表面采样点到环境的距离,safety margin m。
超参:,reachability 权重最大。
3. Bi-Level Trajectory Optimization
直接在 10-DoF 联合空间优化计算不可行,因此分解为两层:
Upper-Level(Base Movement):用 Dual Annealing + SLSQP 搜索最优 base pose,目标是让 arm 有更好的操作空间。对每个 candidate base pose 采样 个 arm pose,评估综合 cost。
Lower-Level(Arm Trajectory):固定 base 轨迹,在已建立的搜索空间中选择 objective 最小的 arm pose。
交替迭代直到收敛:。
4. Pipeline 总结
VLA waypoint prediction → world frame transformation → bi-level trajectory optimization → base + arm action execution。Base 动作是 zero-shot 推断的,不需要 mobile manipulation 训练数据。
Key Results
OVMM Benchmark:
- Overall SR: 49.4%(SOTA KUZHUM 38.2%,+4.2%)
- Pick SR: 62.6%(SOTA 50.2%,+12.4%)
- FindRex SR: 15.8%(SOTA 11.6%,+4.2%)
- 注意:使用 ground-truth object segmentation 时 49.4%,换成 Detic 后骤降至 11.3%
Ablation(cost components):
- 去掉 Reachability:SR 降 1.2%(贡献最大)
- 去掉 Smoothness:SR 降 0.7%
- 去掉 Collision:SR 降 0.5%
- 去掉 Bi-level(直接搜索):SR 降 0.9%,latency 增 49.8ms
Real-World(Hello Robot Stretch → RM65 迁移):
- Stack Block: 30%, Put in Bowl: 40%, Open Drawer: 10%
- 仅需 50 条 real-world demonstration fine-tune
Failure Analysis:
- 72% 失败来自 orient-to-place 阶段(navigation alignment)
- 15% 来自 find-receptacle(目标检测失败)
Strengths & Weaknesses
Strengths:
- 问题定义清晰:将 VLA 从 fixed-base 迁移到 mobile manipulation 是一个实际且重要的问题,方法思路简洁——VLA 负责 what to do,optimization 负责 how to do
- Zero-shot base adaptation:不需要 mobile manipulation 的训练数据来学习 base movement,具有工程实用价值
- 模块化设计:VLA 模型可替换,trajectory optimization 与具体 VLA 解耦
Weaknesses:
- 依赖 GT perception 严重:使用 ground-truth segmentation 时 49.4%,换 Detic 后仅 11.3%,说明方法的实际性能远低于报告的主要数字,这是一个值得注意的 presentation 问题
- Real-world 成功率偏低:最好的 task 也只有 40%,Open Drawer 仅 10%,实用性存疑
- 不支持 long-horizon task:作者自己承认缺乏 task planning module,限制了适用范围
- Optimization latency:每步 ~693ms,对实时性要求高的场景不适用
- Ablation 增益微弱:各 cost component 和 bi-level optimization 的贡献都在 1% 以内,说明核心改进可能主要来自 VLA fine-tune 本身而非 trajectory optimization 的精巧设计
- Bi-level decomposition 的 greedy 性质:作者承认可能收敛到 local optima,但没有深入分析什么条件下会失败
Mind Map
mindmap root((MoManipVLA)) Problem Fixed-base VLA 无法做 mobile manipulation 端到端方法数据成本高 分离式方法有 compounding error Method VLA Waypoint Generation OpenVLA-7B + LoRA fine-tune 200 demonstrations Base frame → World frame 变换 Motion Planning Objectives Reachability Cost (Pinocchio IK) Smoothness Cost (joint space) Collision Cost (ESDF/nvblox) Bi-Level Optimization Upper: Base pose (Dual Annealing) Lower: Arm trajectory 交替迭代至收敛 Results OVMM: 49.4% SR (+4.2% over SOTA) Pick SR: 62.6% (+12.4%) Real-world: 30-40% (仅需50条数据) Limitations 依赖 GT segmentation 不支持 long-horizon Greedy optimization Real-world 成功率低
Notes
- 核心 insight 是 VLA 作为 high-level waypoint generator + classical optimization 作为 low-level motion planner 的分工,这个思路与 SayCan、Code-as-Policies 等 foundation model + classical planning 的范式一脉相承
- 与 Gemini Robotics 等直接端到端训练 mobile manipulation 的路线形成对比——MoManipVLA 是 “迁移复用” 路线,Gemini 是 “大力出奇迹” 路线
- Ablation 结果暗示 trajectory optimization 的精细设计(reachability/smoothness/collision)贡献有限,核心价值可能更多在于 “VLA + any reasonable motion planner” 这个框架本身
- GT segmentation vs Detic 的巨大 gap(49.4% vs 11.3%)是一个 red flag,说明 perception bottleneck 可能比 manipulation policy 本身更关键
- Rating 3/5:问题重要且实际,但方法的 novelty 有限(VLA + optimization 的组合比较 straightforward),实验中对 GT perception 的依赖削弱了结论的说服力,real-world 结果不够 convincing