Summary

一个 zero-shot、modular 的 open-vocabulary mobile manipulation 系统,通过组合现成的 VLM(CLIP/OWL-ViT)、语义记忆(VoxelMap)、导航(A* on occupancy grid)和抓取(AnyGrasp)模块,在真实家庭环境中实现 58.5% 的 pick-and-drop 成功率,无需任何额外训练。

Problem & Motivation

尽管 VLM、grasping model、navigation planner 等 AI 模块各自取得了巨大进展,但将它们整合为一个能在真实家庭环境中工作的 mobile manipulation 系统仍然充满挑战。作者提出一个关键问题:在整合 open-knowledge models 时,哪些细节真正重要

Method

System Pipeline: Scan → Query → Navigate → Manipulate

硬件平台:Hello Robot Stretch

Phase 1: Environment Scanning

  • 用户用 iPhone(Record3D app)拍摄 <1 分钟视频,生成 posed RGB-D sequences
  • 构建 VoxelMap:5cm voxel grid,每个 voxel 存储 detector-confidence weighted CLIP embeddings
  • 使用 OWL-ViT 做 open-vocabulary object detection,CLIP 做语义 embedding

Phase 2: Semantic Memory Query

  • 自然语言 query → CLIP embedding → 与 VoxelMap 做 dot-product similarity → 定位目标物体

Phase 3: Navigation

  • 在 2D occupancy grid 上用 A* path planning
  • 三个 scoring functions 平衡:靠近目标(s₁)、保持 gripper 空间(s₂)、避障(s₃)
  • Voronoi-like paths 保持与障碍物的安全距离

Phase 4: Manipulation

  • AnyGrasp 生成 grasp candidates(trained on 1B grasp labels)
  • LangSam(语言引导分割)确保 grasp 针对正确目标
  • Heuristic scoring 偏好水平 grasp
  • Multi-waypoint 渐进式靠近策略避免扰动轻质物体

Handoff:简单的 linear state machine: navigate → grasp → navigate → drop,无错误恢复机制。

Key Results

  • 58.5% 成功率(10 个真实家庭环境的 open-ended pick-and-drop)
  • 82% 成功率(整洁环境)
  • 比 prior OVMM SOTA 提升约 1.8x
  • 主要失败原因:语义记忆检索错误(9.3%)、困难 grasp pose(8.0%)、硬件限制(7.5%)

Strengths & Weaknesses

Strengths:

  • 完全 zero-shot,无需 robot-specific training
  • 模块化设计使每个组件可独立升级
  • 系统级分析(failure mode breakdown)非常有价值
  • 在 10 个真实家庭中验证,不是 lab 环境

Weaknesses:

  • Linear state machine 无错误恢复,一旦某步失败整个任务失败
  • 需要预先 iPhone 扫描建图,非 online exploration
  • Navigation 和 manipulation 完全独立,无 shared representation
  • 平面物体(书、巧克力等)grasp 困难
  • 缺乏 long-horizon 多步任务能力

Mind Map

mindmap
  root((OK-Robot))
    Problem
      VLM+robot 整合的细节
      Real home 部署挑战
    Architecture
      VoxelMap 语义记忆
        CLIP + OWL-ViT
        5cm voxel grid
      Navigation
        A* on occupancy grid
        Voronoi-like safe paths
      Manipulation
        AnyGrasp + LangSam
        Multi-waypoint approach
      Linear state machine
    Results
      58.5% pick-and-drop
      82% in clean envs
      1.8x over prior SOTA
    Insights
      Nuanced details matter
      No training needed
      Failure analysis

Notes

  • OK-Robot 是 modular Nav+Manip 系统的最佳代表:每个模块用最好的 off-the-shelf model,通过简单 pipeline 组合。其成功和失败都清楚地展示了 modular 方案的优势和局限。
  • SayCan 的区别:SayCan 用 LLM 做 task planning(选择 skill sequence),OK-Robot 用 VLM 做 perception(找物体位置),两者互补。
  • 58.5% 的成功率说明 open-knowledge 整合仍有很大提升空间,尤其是 nav→manip handoff 和错误恢复。