Summary

BUMBLE: Unifying Reasoning and Acting with VLMs for Building-wide Mobile Manipulation

  • 核心: 用单一 VLM 作为中央 reasoner,统一感知 / 技能 / 记忆,端到端解决 building-scale 的 mobile manipulation——跨楼层、跨房间、长达 12 步、15 分钟的长程任务
  • 方法: VLM (GPT-4o) + GSAM 开放词汇感知 + 8 个参数化技能(GoToLandmark / UseElevator / Pickup / PushObjOnGround / OpenDoor / …)+ 双层记忆(短期:当前 trial 的 state-action history;长期:跨 trial 的失败案例)+ Set-of-Mark + CoT 提示
  • 结果: 70 trials × 3 buildings × 3 tasks,47.1% 成功率;OfflineSkillDataset 上 80.2%(vs COME 72.6% / Inner-Monologue 61.7%);用户研究 Likert 3.7/5.0(COME 2.6)
  • Sources: paper | website | github
  • Rating: 1 - Archived(2026-04 复核:18.5mo 仅 31 citation / 1.68/mo velocity、66⭐ github 已 stale,社区关注度未起量;building-wide MoMa framing 有价值但方法依赖大量人工先验,预期不再主动翻)

Key Takeaways:

  1. Building-wide MoMa as a benchmark: 把 mobile manipulation 的范围从单个房间扩到整栋楼(多楼层、电梯、走廊、未知房间),并通过 12-step / 15-min 的 long-horizon 任务暴露出现有 VLM-based 方法的 memory & skill library 短板
  2. 双层记忆是关键 trick: 短期记忆维护 trial 内 state-action 链供 VLM 反思失败;长期记忆跨 trial 累积人工标注的失败案例,本质是把 in-context lesson 当作离线”经验池”
  3. SoM + CoT 是必需的接口: Ablation 显示去掉 CoT 掉 19.5pt,去掉 SoM 掉 31pt——直接让 VLM 描述目标对象再交给 GSAM 分割效果差很多(“diet Dr. Pepper” 类细粒度失败)
  4. 能 scale 到更强的 VLM: 在 Claude/Gemini/GPT 三个系列、共 8 个 checkpoint 上验证,技能参数预测随 VLM 能力上升单调改善——框架本身随基座增益自动受惠

Teaser. Building-wide MoMa 的任务示例与 BUMBLE 的执行轨迹。


Building-wide Mobile Manipulation:问题定义

作者把”楼栋级 mobile manipulation”作为 first-class 问题提出来:机器人需要

  • 跨楼层(坐电梯)、跨房间(穿门)、长走廊导航
  • 处理走廊里的随机障碍(椅子、湿滑警示牌、纸箱)→ 不只是绕开,常需要主动 push / open
  • 在杂乱场景里识别开放词汇目标(“diet soda”、“green marker”)
  • 串联 ≤ 12 个 ground-truth skill、单次执行 15 分钟(不计 VLM 查询时间)

Figure 1. Building-wide MoMa 的典型场景。

❓ 12-step / 15-min 这个 horizon 在 mobile manipulation 文献里算长,但相比 Habitat / OVMM 这些离线 benchmark 还是手工设定的 3 个任务模板,并没有 task generator。“building-wide” 更像是规模上的扩展,而非任务多样性的扩展。


方法:BUMBLE 架构

整体架构如 Figure 3 所示:VLM 作为中心 controller,每一步迭代地 (1) 接收 RGBD 观察 + 任务指令 + 长短期记忆,(2) 预测下一个 subtask + skill,(3) 预测 skill 的参数,(4) 执行并把结果写回短期记忆。

Figure 3. BUMBLE 架构。 Skill library(左上)+ 短/长期记忆(中下/左下)+ RGBD 感知(左上)→ 参数化技能预测(右上)→ 执行 → 写入短期记忆(右下)。

感知系统:GSAM + RGBD back-projection

不直接把 RGB 喂给 VLM 做 grounding,而是先用 Grounded-SAM(GroundingDINO + SAM-HQ)做开放词汇分割,再用深度图反投影出物体点云、计算物体到机器人的距离。理由是:分割模型在像素级精度上比 VLM 强,且 VLM 不会读 depth/point cloud。

❓ 这等于把 “VLM 直接看图说话” 退化为 “VLM 在 SoM 标注的 RGB 上做选择”——简化了 VLM 的任务,但也把感知瓶颈外包给 GSAM。后面 ablation 证实”去掉 SoM 让 VLM 自由描述”会差 31pt,说明 GSAM 在 fine-grained 分割上仍是短板。

Skill Library:8 个参数化技能

技能列表(按粒度从粗到细):

Skill参数描述
GoToLandmarklandmark image用 topological map(landmark 图为节点) + 2D occupancy map 做跨房间导航
NavigateNearObjobject segmentation走到可见 object 附近
MoveBasedirection (F/B/L/R)30 cm 微调,仅在最后 few meters 用
Pickupobject segmentation左臂抓取
PushObjOnGroundobject seg, direction推开障碍 / 重排
OpenDoorleft/right用对应胳膊推门
CallElevatorbutton segmentation在当前楼层呼叫电梯
UseElevatorbutton segmentation进电梯后选目标楼层按钮

每个 skill 有:a) 参数到 low-level 控制的映射(用 ROS gmapping/amcl/move_base + tracikpy 做 IK),b) 给 VLM 的描述 prompt,c) 失败检测(depth NaN、IK 无解、路径阻塞)。GoToLandmark 依赖人工预先采集的 landmark image-to-pose 映射。

双层记忆

短期记忆:当前 trial 内每一步存 (scene image, subtask, skill name, parameter, success/failure),让 VLM 在下一次决策时能看到完整执行历史,从失败步恢复(如抓取失败后用 MoveBase 重新对位)。

长期记忆:跨 trial 持久化的”错题本”。离线收集每个技能 5 个示例 → 与 ground truth 比较 → 只保留预测错的,附上 VLM 自己生成的”为什么错”分析。最终 MoveBase / UseElevator / PushObjOnGround / 技能选择各拿到 1-3 个错题。评估期间不更新长期记忆。

❓ “长期记忆” 实际上是 1-3 个 in-context few-shot 错例,量级很小、不在线更新。说”long-term memory” 略 over-claim——这更像 prompt-level few-shot prior,而非真正的持续学习。论文末尾 limitations 也承认存储增长会变 intractable,未来要做 retrieval 或参数化压缩。

VLM 决策:两步分解

每个决策步分两次 VLM 调用:

  1. Subtask + skill selection:输入 = 任务指令 + skill 描述 + 当前 RGB(带 SoM 标注)+ 物体距离 + 短期记忆 + 长期记忆。CoT 给出”下一个 subtask 是什么、应该用哪个 skill”。
  2. Skill parameter estimation:输入 = 预测的 subtask + 该技能的失败错题本 + 候选参数的 SoM 可视化(如 MoveBase 的四个方向箭头、PushObj 的候选 GSAM mask + 推后位置)。CoT 给出最终参数选择。

Set-of-Mark (SoM):把候选物体 / 候选方向用数字 ID 在 RGB 上叠加,让 VLM 通过”选 ID”而不是”描述自然语言”来 grounding——避免 VLM 输出 ambiguous 描述后 GSAM 再次失败的双重不确定性。

Figure 4. 一次执行轨迹的 trace。 每步显示 SoM 标注的图像、所选 skill (蓝)、所选参数、文字 rationale;红色为失败后 VLM 自适应换 skill 的步骤。


实验

任务设置

3 个 long-horizon 任务,每个 3 种自然语言改写:

  • Retrieve diet soda can:如 “Could you grab me a drink that is low in calories?”
  • Retrieve colored marker:如 “I want to color the sky in my drawing. Can you get me a marker?”
  • Rearrange chairs:如 “Could you make the seating chairs in the reception area more orderly?”

跨 3 栋大学建筑(不同楼层 / 房间布局 / 视觉外观),10 trials/building/task,总计 90+ 小时。机器人随机初始化在不同楼层、走廊放随机障碍(关闭的门 / 椅子 / 湿滑警示牌 / 纸箱)。干扰物 5-25 个(含未见过的 diet soda 品牌、marker 品牌)。

主结果

Table I. Building-wide tasks 上的成功率(%, 10 trials each)。

MethodMarker B1Marker B2Marker B3Soda B1Soda B2Soda B3Chairs B1Avg
Inner-Monologue100106.7
COME4030404030304035.7
BUMBLE6040504050405047.1

Baseline 解释:

  • Inner-Monologue (IM):只用语言场景描述,无 RGB、无长期记忆 → 6.7%,太差所以只测了 B1
  • COME:用 RGB(像 BUMBLE)但无长期记忆 → 35.7%

BUMBLE 比 COME 平均高 12.1pt,作者归因为长期记忆里的”错题本”。

Skill parameter 准确率(OfflineSkillDataset, ~120 张图)

Table II. 单步 skill parameter 预测成功率(%)。

Skill ParameterBUMBLECOMEIMw/o CoTw/o SoM
Pickup (5-10 distractors)80.080.065.080.050.0
Pickup (20-25 distractors)65.065.065.060.040.0
PushObjectOnGround81.070.456.864.381.8
CallElevator (Button)95.075.060.040.025.0
Average80.272.661.760.749.2

Ablation 关键观察

  • 去掉 CoT:80.2 → 60.7(–19.5pt)。CallElevator 上从 95 暴跌到 40——细粒度按钮选择需要逐步推理
  • 去掉 SoM:80.2 → 49.2(–31pt)。Pickup 在干扰多时受冲击大;让 VLM 自由描述对象再让 GSAM 分割效果远不如直接选 SoM ID。有趣的是 PushObjectOnGround 反而略涨(81.0 → 81.8),可能是因为推动方向不依赖细粒度物体描述
  • 干扰物影响:5-10 → 20-25 时 Pickup 从 80 掉到 65;论文里失败分析也指出 distractor 多时 VLM 错误率从 10% 升到 38.9%

Scaling with VLM capability

Figure 5. 8 个 VLM checkpoint 上 BUMBLE 的 skill parameter 准确率。

测试了 Claude (Haiku-3 / Sonnet-3 / Opus-3 / Sonnet-3.5)、Gemini (Flash-1.5 / Pro-1.5)、GPT (4o-mini / 4o) 三个系列。同一系列内随能力上升单调改善——支持作者”框架不被 VLM 锁死”的论点。

失败模式分析

Figure 6. 70 trials 的成功 / 失败分类。

失败构成:

  • VLM reasoning 错(多数):选错对象(尤其是 distractor 多时)、push 时引发碰撞、按错电梯按钮
  • Sensor 错:10/38 由 depth NaN 或 lidar 失败导致
  • GSAM 分割错:尤其是细粒度品牌(“diet Dr. Pepper” vs 普通 Dr. Pepper)

涌现行为:BUMBLE 学会用 MoveBase 在 sensor failure 后重新对位(如 depth NaN 时往电梯按钮 / 椅子方向挪一步再试)。这是短期记忆 + 通用 skill library 的副产物,不是显式编程的。

用户研究

Figure 7. 5-point Likert 用户评分(n=10)。

在两个未见过的任务(“打翻水了,找点东西清理”、“手机进水了,找东西吸湿气”,需进入新的 shower room)上对比 BUMBLE vs COME。

  • BUMBLE Likert avg = 3.7,COME = 2.6
  • BUMBLE 比 COME 减少 22pt 不可恢复失败、12pt 可恢复失败
  • 但 33% 的 BUMBLE rollout 被评为 sub-optimal——常见问题是”抓了能用的,但不是最佳的”(VLM 倾向 greedy 选最近 / 最显眼的物体)

Robot execution 视频集锦:不同初始状态。

不同任务(重排椅子、取 diet soda、取 marker)。

不同建筑。


关联工作

基于

  • Grounded-SAM (GroundingDINO + SAM-HQ):开放词汇分割模型,BUMBLE 的感知前端
  • Set-of-Mark prompting (SoM):在图像上叠加数字 ID 让 VLM 选择
  • Chain-of-Thought (CoT):中间推理步
  • TeleMoMa (Dass et al. 2024):作者实验室的 Tiago robot ROS 基础设施

对比

  • Inner-Monologue (Huang et al. 2022):纯 LLM 用语言场景描述做规划,BUMBLE 把它扩到带 RGB 后仍弱很多
  • COME (Zhi et al. 2024):closed-loop VLM-based MoMa,有 RGB 但无长期记忆,是 BUMBLE 最强 baseline
  • OK-Robot (Liu et al. 2024), HomeRobot, Stone et al. 2023:simple MoMa 的 VLM 方法,缺乏 building-scale 的 skill library 和 memory

方法相关

  • TAMP / Neuro-symbolic planning:经典 long-horizon 方法,受限于 closed-set 物体
  • Interactive navigation (Stilman, HRL4IN, CAMP):处理”路径上有障碍需要操作”的设定,但只用几何信息;BUMBLE 加入语义推理
  • VLM for tabletop (MOKA, CoPa):方法论近亲,但场景小一个量级

论文点评

Strengths

  1. Building-wide MoMa 是有价值的扩展:把 mobile manipulation 推到楼栋尺度(含电梯、跨楼层)暴露了纯 tabletop / 单房间 baseline 在 long-horizon、interactive navigation 上的 limitation
  2. 真机大规模评估:90+ 小时、3 栋楼、70 trials 是 mobile manipulation 论文里少见的工程量;user study 也比纯定量 SR 更能说明问题
  3. Ablation 很到位:CoT (-19.5pt) 与 SoM (-31pt) 的拆解清晰量化了 prompting 接口的价值;不同 VLM 上的 scaling curve 支持框架的 future-proof claim
  4. 失败分析诚实:明确给出 sensor / GSAM / VLM reasoning 的归因比例,并承认 greedy plan / 多干扰物 / 细粒度识别的局限

Weaknesses

  1. “长期记忆” 与名字不符:实际只是 1-3 个 hand-curated few-shot 错例,且 evaluation 期间不更新。这更像精心调过的 prompt prior,而非真正的 lifelong memory
  2. 任务覆盖偏窄:3 个任务模板(marker / soda / chairs)+ 2 个 unseen 任务。说”unseen” 但仍是 retrieve / arrange 套路,没有真正测试 task family 的开放性
  3. 依赖大量人工先验:landmark images 需人工采集并预先 mapping 到 2D 占据图;skill 列表手工设计;长期记忆错题人工标注。可扩展性受限
  4. 47.1% 成功率离 deployable 还很远:作者把它定位为 “stepping stone” 是诚实的,但用户研究里 33% 的 sub-optimal + ~50% 失败率说明离消费级服务机器人有量级差距
  5. VLM 推理时间不计入 15 min:对实际部署而言这是关键瓶颈,论文回避了

可信评估

Artifact 可获取性

  • 代码:开源,inference-only(rw_eval.py 主入口)
  • 模型权重:未训练新权重;依赖 GPT-4o API + 公开的 GroundingDINO (groundingdino_swinb_cogcoor) + SAM-HQ (sam_hq_vit_b)
  • 训练细节:N/A(无训练)。Prompt 模板写在论文 Appendix VII-A
  • 数据集:OfflineSkillDataset(~120 张人工标注图)未在 GitHub README 中明确开源;landmark 图通过 box.com 链接提供(限作者实验楼)

Claim 可验证性

  • 47.1% SR / 80.2% offline acc:70 trials + Table II 数据,可在公开 dataset 上复现
  • VLM scaling:Fig 5 跨 8 个 checkpoint 给出曲线
  • ⚠️ 22% 用户满意度提升:n=10 participants,样本量小;trajectory 是事后图片标注而非 live operation;统计显著性未报告
  • ⚠️ “长期记忆” 带来 12.1pt 提升:归因不严——COME baseline 没有长期记忆,但也可能 BUMBLE 的其他 prompt 差异(e.g., CoT 模板)共同贡献
  • ⚠️ 跨建筑泛化:3 栋都是 UT Austin 的大学建筑,可能 visual / layout 同构度高
  • 无明显的 marketing 话术

Notes

  • “Building-wide” 这个 framing 比方法本身更有 contribution——把 horizon 从单房间推到楼栋是一个清晰的 problem formulation 升级,未来 mobile manipulation 论文可能会沿用这个 benchmark 视角
  • 短期 + 长期 memory 的组合很自然但实现很轻量,本质是 “in-context history + in-context error library”。值得思考:当 task / building 规模继续扩大,这个 memory 怎么 scale?dynamic retrieval (RAG over 经验) 或者参数化(fine-tune VLM on errors)是论文 limitations 提到的方向
  • VLM-based 系统普遍的 greedy 倾向(user study 里 33% sub-optimal)说明 single-step CoT 不够,未来需要 multi-step lookahead / Monte-Carlo rollout 等更结构化的 planning over VLM
  • 与端到端 VLA 路线对比:BUMBLE 走的是 hierarchical—— VLM 做 high-level reasoning + 经典 motion planner 做 low-level,避免了端到端 VLA 在 long-horizon 上的累积误差,但代价是技能库的人工设计与失败模式的拼接复杂度

Rating

Metrics (as of 2026-04-24): citation=31, influential=3 (9.7%), velocity=1.68/mo; HF upvotes=N/A; github 66⭐ / forks=4 / 90d commits=0 / pushed 425d ago · stale

分数:1 - Archived 理由:初评时基于”building-wide framing + 真机规模 + 细致 ablation”给到 Frontier,Strengths 的这些判断仍然成立。但 2026-04 复核:发布 18.5 个月后 citation 仅 31(velocity 1.68/mo,远低于同期 Frontier VLA/MoMa 工作如 ECoT 13.18/mo、Octo 50.35/mo)、github 66⭐ / 4 forks 且 425 天未更新已 stale、HF 无条目,social signals 全面指向小众;结合 Weaknesses 里 47.1% SR、3 个手工任务模板、“长期记忆”实为 1-3 条 few-shot 错例、依赖人工采集 landmark 这些结构性局限,它没有像 OK-Robot / HomeRobot 那样沉淀为方向的 de facto 基础。相较 Frontier(“必比较的 baseline / 方法范式代表”),它未被后续 MoMa 主线工作采纳为对比基线;相较 Foundation 更是远远达不到。定档 Archived:作为 building-wide MoMa 的早期 problem framing 参考记录在案,但方法本身预期不再主动翻。