Summary

现有 bimanual manipulation benchmark 任务过短且双臂协调松散,BiCoord 提出包含 18 个长时序、紧耦合双臂操作任务的 benchmark,并设计了 spatial-temporal coordination 量化指标体系,实验表明 DP、RDT、Pi0、OpenVLA-OFT 等主流策略在长时序紧耦合任务上表现不佳。

Problem & Motivation

Bimanual manipulation 是实现 human-level dexterity 的关键能力,但现有 benchmark(如 RoboTwin、RLBench2)存在两个核心缺陷:(1)任务短时序(short-horizon),仅需少量 motion primitives 即可完成;(2)双臂协调松散(loosely coordinated),两臂几乎独立操作或仅在时间上分离执行。真实世界的双臂操作需要 phased coupling(交替协作/独立阶段)、spatial-temporal constraints(同步定位)和 predictive coordination(预判另一臂动作),现有 benchmark 无法反映这些特性。

Method

BiCoord 基于 RoboTwin2.0 平台构建,核心包含三部分:

任务设计:18 个多样化任务,要求持续的 inter-arm dependency 和 dynamic role exchange,平均 4.27 个 stage(是已有 benchmark 的 3 倍),平均 trajectory 长度 361 步(提升 63%)。任务包括 balance roller、build bridge、cook、jigsaw 等场景。

Spatial-Temporal Coordination 指标体系

  • Spatial 维度:Minimum Relative Distance (MRD) 和 Average Relative Distance (ARD),衡量双臂间距离耦合程度
  • Temporal 维度:Simultaneous Movement Time (SMT) 和 Simultaneous Movement Percentage (SMP),衡量双臂同时运动的比例
  • 耦合指标:Spatial-Temporal Integral (STI),在距离阈值上对 SMP 积分,综合衡量时空耦合程度

Stage-wise 评测:提供 stage-wise annotation 和 Stage-wise Success Rate (SSR),支持细粒度分析策略在不同阶段的表现衰减。

数据生成:通过 coding agent + human-in-loop 生成 action code,每个任务 100 条成功 trajectory,10 个 random seed 需达 60% 成功率门槛。

Key Results

在 single-task learning 设定下评测 4 种代表性方法:

方法Avg SRAvg SSRAvg TL
DP33.1%52.1%307
RDT39.5%57.3%387
OpenVLA-OFT40.5%52.3%401
Pi046.4%62.6%380
  • Pi0 整体最优,VLA pretrain 的优势显著
  • Build Tower With Blocks 所有方法 0% SR,Handover Block With Bowls 接近零(精确对齐能力不足)
  • DP 的 trajectory 最短(比 Pi0 短 9.75%),执行效率最高
  • Multi-task learning 导致显著性能下降:Pi0 从 46.4% 降至 27.2%,RDT 从 39.5% 降至 16.9%
  • Pi0 在 Divide Block Tower 中当 block 颜色改变时失败,说明策略无法通过颜色关联 block 和 landmark(缺乏推理能力)

Strengths & Weaknesses

Strengths

  • 填补了长时序紧耦合 bimanual manipulation benchmark 的空白,任务设计有层次感
  • Spatial-temporal coordination 指标体系设计系统,STI 指标能综合刻画双臂协调程度,比单一指标更有信息量
  • Stage-wise evaluation 可以精确定位策略在哪个阶段开始崩溃,对调试和改进策略有直接价值
  • 公开数据、代码和 checkpoints,可复现性好

Weaknesses

  • 所有评测均基于 imitation learning,未涉及 RL 或 hierarchical planning 方法,而这些方法在 long-horizon 任务上可能更有优势(作者在 conclusion 中承认了这一点)
  • 任务仍局限于 RoboTwin2.0 仿真环境,sim-to-real gap 未讨论
  • 18 个任务虽然数量有增长,但 diversity 是否足以覆盖真实 bimanual manipulation 的核心挑战模式存疑
  • 指标设计基于双臂末端执行器位置,未考虑 force/contact 维度的协调,而许多真实双臂任务(如拧瓶盖、折叠衣物)需要力的协调

影响:该 benchmark 为 bimanual manipulation 研究提供了更有挑战性的测试场景,暴露了现有策略在 long-horizon coordination 上的不足,有望推动该方向的方法创新。

Mind Map

mindmap
  root((BiCoord))
    Problem
      现有 benchmark 任务短、协调松
      缺乏 spatial-temporal coordination 量化指标
    Method
      18 个长时序紧耦合任务
      MRD/ARD/SMP/STI 指标体系
      Stage-wise evaluation
    Results
      Pi0 最优但仅 46.4% SR
      所有方法在复杂任务上失败
      Multi-task 显著性能下降

Notes

  • 2502-OpenVLA-OFT 直接相关,BiCoord 作为更难的 benchmark 进一步暴露了 OpenVLA-OFT 在长时序协调上的不足
  • 2503-MoManipVLA 可对比,后者关注 mobile manipulation,而 BiCoord 聚焦固定基座双臂
  • “如何结合 DP 的稳定性和 VLA 的泛化性” 是作者提出的开放问题,值得关注
  • STI 指标的设计思路(在多个阈值上积分)类似 mAP 在 object detection 中的做法,有一定通用性