Summary

Octo 是 UC Berkeley 等机构提出的开源 generalist robot policy,采用 transformer backbone + diffusion action head 架构,在 Open X-Embodiment 数据集的 800k trajectories 上训练,支持 language 和 goal image 两种指令模式,可在数小时内 fine-tune 到新的 observation/action space,是 VLA 领域最早的开源 generalist policy 之一。

Problem & Motivation

构建通用机器人策略需要处理多种 sensor 输入、action space 和 robot embodiment 的异构性。已有方法要么封闭(RT-2),要么不够通用。作者旨在提供一个开源、灵活、可快速适配的 generalist robot policy baseline。

Method

1. 架构设计

  • Transformer backbone:类 ViT 架构,Octo-Small(27M)和 Octo-Base(93M)两个版本
  • Vision tokenizer:轻量 CNN patch encoder,将图像分成 16×16 patches
  • Language encoder:T5-Base encoder 将语言指令编码为 token
  • Readout tokens:特殊 token 用于从 transformer 输出中提取 action 信息
  • 统一的 token 接口使模型能处理任意组合的 observation 和 task specification

2. Diffusion Action Head

  • 在 readout token embeddings 上应用轻量 diffusion head
  • 预测 action chunk(连续多步 action),Octo-Small 预测未来 4 步
  • 7-DoF action space(末端执行器位置/旋转 + gripper)
  • Diffusion 生成连续 action,避免 tokenization 的精度损失

3. 训练数据

  • Open X-Embodiment 数据集,800k robot trajectories
  • 覆盖多种 robot 平台(WidowX, Franka, Kuka 等)
  • 多样化任务和环境

4. Fine-tuning

  • 支持适配新的 observation modality(如深度图、tactile)
  • 支持适配新的 action space
  • 几小时内在消费级 GPU 上完成
  • 冻结 backbone + 训练新 head,或全量 fine-tuning

Key Results

  • 跨平台验证:在 9 个 robot 平台上验证了有效的 policy initialization
  • Fine-tuning 性能:fine-tune 后在目标任务上超越 from-scratch 训练
  • 消融实验:详细分析了架构选择(transformer depth、patch size)和数据选择的影响
  • 指令跟随:支持 language 和 goal image 两种 task specification
  • 作为 baseline:被 π₀、OpenVLA 等后续工作广泛对比

Strengths & Weaknesses

Strengths:

  • 灵活的 token 化设计,统一处理异构输入
  • Diffusion action head 生成连续 action,比 token 预测精度更高
  • 模型轻量(27M/93M),部署成本低
  • 完全开源(模型、代码、数据),生态完善
  • 详细的消融实验为后续研究提供了有价值的参考

Weaknesses:

  • 模型参数量较小,语义理解能力有限(无大规模 VLM 预训练)
  • 在复杂长时域任务上能力不足
  • 控制频率和灵巧操作能力不如 π₀
  • 未利用 web-scale 预训练数据

Mind Map

mindmap
  root((Octo))
    Problem
      异构 robot 平台
      需要通用 policy
      开源生态缺失
    Method
      Transformer backbone
        Octo-Small 27M
        Octo-Base 93M
      Diffusion action head
        Action chunking
        连续 action 生成
      800k trajectories
        Open X-Embodiment
        9 个 robot 平台
      灵活 token 接口
        Language / Goal image
        任意 observation 组合
    Results
      9 平台验证
      高效 fine-tuning
      详细消融实验
    Limitations
      参数量小
      无 VLM 预训练
      复杂任务能力有限

Notes

  • Octo 的设计哲学是”灵活性优先”——统一 token 接口使其能适配几乎任何 robot setup
  • Diffusion action head 是重要的设计选择,介于 RT-2 的 discrete token 和 π₀ 的 flow matching 之间
  • 27M/93M 的参数量说明 generalist policy 不一定需要巨大模型,关键是数据多样性和架构设计
  • 与 OpenVLA 形成互补:Octo 更轻量灵活,OpenVLA 有更强的语义理解(VLM backbone)