NavPreGrasp: Navigation-Aware Manipulation Pre-Positioning

Hypothesis

若在 navigation 阶段就预测最优的 manipulation approach pose（机器人到达目标物体时的最终位姿），并将其作为 navigation 的 goal constraint，则 mobile manipulation 的 grasp success rate 将显著高于先导航到目标附近再调整位姿的 sequential 策略，因为 approach pose 同时影响 gripper reachability、视野质量和障碍物避让。

Motivation

解决的知识空白：VLN-VLA-Unification survey Section 5 明确指出”Nav→Manip handoff 是核心瓶颈”——modular 系统中 robot 停在 navigation 终点后开始 manipulation，但该位置往往不是 manipulation 最优位置。OK-Robot 用 3 个 heuristic scoring function 缓解但未根本解决。
成功的影响：为所有 mobile manipulation 系统提供一个即插即用的模块——从 OK-Robot 到 π0.5 都可受益。Nav-manip transition 是失败率最高的环节之一。
时机成熟：AnyGrasp 等 grasp planning 工具可提供 graspability 先验；VLM 的 spatial reasoning 能力（SpatialVLM, CVPR 2024）可用于从图像预测 approach direction。

2401-OKRobot - 使用 3 个 scoring function（reach target + gripper clearance + obstacle avoidance）选择 navigation 终点，但是 heuristic 的，不考虑具体 grasp pose。NavPreGrasp 将这一过程学习化，并联合优化 navigation goal 和 grasp approach。
2504-Pi05 - π0.5 的 hierarchical inference 在 high-level 规划时不考虑 low-level manipulation 的空间约束，可能导致 suboptimal 的 approach。
2401-SpatialVLM - 暂无相关笔记，建议先 paper-digest SpatialVLM（CVPR 2024）。VLM spatial reasoning 可用于从 egocentric 视角预测 approach direction。
2401-MobileALOHA - End-to-end whole-body policy 隐式学习了 approach pose，但无法泛化到新环境和新物体。

Novelty: 4/5 — closest works: 2401-OKRobot（heuristic scoring, 非 learned joint optimization）, 2401-MobileALOHA（implicit in end-to-end policy, 不可迁移）。无已有工作将 approach pose prediction 显式建模为 navigation goal constraint。

Approach sketch

Approach Pose Predictor (APP)：给定 (a) 目标物体的 3D position + semantic info（来自 scene graph 或 VoxelMap），(b) 周围环境的 occupancy + obstacle info，(c) robot 的 kinematic constraints（arm reach, gripper workspace），预测最优 approach pose（base position + orientation）。APP 可以是一个轻量 MLP，也可以是 VLM 的一个 auxiliary prediction head。
Navigation Goal Integration：APP 输出的 approach pose 作为 navigation 的 goal（替代简单的”导航到物体附近”），navigation planner 规划到该 pose 的路径。如果 approach pose 不可达（被障碍物阻挡），APP 输出 top-K 候选 pose，planner 选择可达且最优的。
训练数据生成：在 Habitat 2.0 中，对每个 pick-and-place 任务：
- 枚举 robot base 在目标物体周围的 N 个候选 pose（不同距离 × 不同角度）
- 对每个 pose 执行 grasp 尝试，记录成功/失败
- 成功率最高的 pose 作为 ground truth approach pose
- 这种自动化数据收集可以大规模生成训练数据
评估：在 HomeRobot OVMM 上，对比 (a) NavPreGrasp（learned approach pose），(b) OK-Robot scoring（heuristic approach），(c) random approach（navigate to nearest free space）。

Expected outcome

Grasp success rate（given successful navigation）从 baseline ~70% 提升至 85%+
Overall pick-and-place SR 提升 10-15%（因为 nav-manip transition 是主要失败点之一）
定性分析：NavPreGrasp 学会从桌子侧面而非正面接近（避免手臂碰到桌面边缘），从物体的 graspable 方向接近等

Risk

Approach pose 的 task-dependency：不同 manipulation 任务（pick vs pour vs push）需要不同 approach pose，单一 predictor 可能无法覆盖。缓解：先限制 pick-and-place，再扩展。
环境遮挡：在导航阶段可能看不到目标物体周围的完整环境，导致 approach pose 预测不准。缓解：允许 APP 在接近过程中更新预测（iterative refinement）。
Kinematic model dependency：APP 需要知道 robot 的 arm reach 和 workspace，不同 robot 需要重新训练。缓解：将 kinematic constraints 作为 input 参数化。

MindFlow

Explorer

NavPreGrasp: Navigation-Aware Manipulation Pre-Positioning

Hypothesis

Motivation

Approach sketch

Expected outcome

Risk

Table of Contents

MindFlow

Explorer

NavPreGrasp: Navigation-Aware Manipulation Pre-Positioning

Hypothesis

Motivation

Related Work

Approach sketch

Expected outcome

Risk

Table of Contents