Summary

一个低成本($32K)的 whole-body teleoperation 系统,通过在 ALOHA 双臂平台上加装移动底盘,实现了 bimanual mobile manipulation 的数据收集和 imitation learning。核心创新是 co-training:用少量(50 条)mobile manipulation demonstrations 加上大量已有的 static ALOHA 数据联合训练,成功率提升高达 90%。

Problem & Motivation

现有 manipulation 研究大多聚焦于 table-top 场景,而真实世界的家务任务(做饭、收纳、清洁)同时需要 mobility 和 dexterity。挑战:(1)mobile manipulation 的数据收集极其困难;(2)双臂 + 移动底盘的 whole-body coordination 维度高;(3)现有 mobile manipulator 成本极高(>$100K)。

Method

Hardware

  • 在 ALOHA 双臂 teleoperation 系统上加装 mobile base
  • 操作员物理连接到系统,通过身体推动实现底盘移动
  • 同时记录双臂 puppet 数据和底盘速度数据
  • 总成本 $32K(含 onboard 算力和电源)

Learning: Supervised Behavior Cloning + Co-training

  • Imitation learning:对每个任务收集约 50 条 demonstration
  • Co-training 策略:将 mobile manipulation demonstrations 与已有的 static ALOHA 数据集混合训练
  • Static 数据提供 manipulation skill 的 prior,即使 static 任务与 mobile 任务不同,co-training 也能显著提升 mobile 任务性能
  • 本质上是一种 data augmentation / transfer learning 策略

Architecture

  • 使用 ACT(Action Chunking with Transformers)作为 policy network
  • 输入:多视角 RGB 图像 + proprioception(关节角度 + 底盘速度)
  • 输出:action chunk(一次预测多步动作)

Key Results

  • Co-training 使 mobile manipulation 成功率提升高达 90%
  • 成功完成的复杂任务:
    • 煎虾并装盘
    • 打开双门壁柜存放锅具
    • 呼叫并进入电梯
    • 用水龙头冲洗平底锅
  • 每个任务仅需约 50 条 demonstrations

Strengths & Weaknesses

Strengths:

  • 低成本硬件方案使 mobile manipulation 研究更加 accessible
  • Co-training 是一个优雅的 data-efficient 策略
  • End-to-end learning 自然融合 navigation 和 manipulation,无需 explicit handoff
  • 展示了极具挑战性的真实世界任务

Weaknesses:

  • Navigation 范围有限——物理 teleoperation 决定了数据只能覆盖短距离移动
  • 没有显式的 spatial understanding 或 map building
  • 不支持 open-vocabulary 指令——每个任务需要单独收集数据和训练
  • Behavior cloning 的 compounding error 在更长 horizon 任务中可能更严重
  • 缺乏 language conditioning,不能通过自然语言指定目标

Mind Map

mindmap
  root((Mobile ALOHA))
    Problem
      Table-top 局限
      Mobile manip 数据收集难
      High cost barrier
    Hardware
      ALOHA + mobile base
      $32K 低成本
      Whole-body teleoperation
    Learning
      Behavior cloning
        ACT policy
        Action chunking
      Co-training
        50 mobile demos
        + static ALOHA data
        Up to 90% improvement
    Tasks
      Cooking 煎虾
      Cabinet storage
      Elevator operation
      Pan rinsing

Notes

  • Mobile ALOHA 代表了 Nav+Manip 的 end-to-end imitation learning 路线:不显式区分 navigation 和 manipulation,而是用 whole-body policy 统一处理。这与 OK-Robot 的 modular pipeline 形成鲜明对比。
  • 局限在于 navigation 距离短、无 language conditioning、无 spatial map——本质上是一个 “mobile manipulation” 系统而非 “navigation + manipulation” 系统。
  • Stanford 后续工作将 Mobile ALOHA 与 VLA(如 π₀)结合,可能是 end-to-end Nav+Manip 的更完整方案。