Octo: An Open-Source Generalist Robot Policy

Summary

Octo 是 UC Berkeley 等机构提出的开源 generalist robot policy，采用 transformer backbone + diffusion action head 架构，在 Open X-Embodiment 数据集的 800k trajectories 上训练，支持 language 和 goal image 两种指令模式，可在数小时内 fine-tune 到新的 observation/action space，是 VLA 领域最早的开源 generalist policy 之一。

Problem & Motivation

构建通用机器人策略需要处理多种 sensor 输入、action space 和 robot embodiment 的异构性。已有方法要么封闭（RT-2），要么不够通用。作者旨在提供一个开源、灵活、可快速适配的 generalist robot policy baseline。

Method

1. 架构设计

Transformer backbone：类 ViT 架构，Octo-Small（27M）和 Octo-Base（93M）两个版本
Vision tokenizer：轻量 CNN patch encoder，将图像分成 16×16 patches
Language encoder：T5-Base encoder 将语言指令编码为 token
Readout tokens：特殊 token 用于从 transformer 输出中提取 action 信息
统一的 token 接口使模型能处理任意组合的 observation 和 task specification

2. Diffusion Action Head

在 readout token embeddings 上应用轻量 diffusion head
预测 action chunk（连续多步 action），Octo-Small 预测未来 4 步
7-DoF action space（末端执行器位置/旋转 + gripper）
Diffusion 生成连续 action，避免 tokenization 的精度损失

3. 训练数据

Open X-Embodiment 数据集，800k robot trajectories
覆盖多种 robot 平台（WidowX, Franka, Kuka 等）
多样化任务和环境

4. Fine-tuning

支持适配新的 observation modality（如深度图、tactile）
支持适配新的 action space
几小时内在消费级 GPU 上完成
冻结 backbone + 训练新 head，或全量 fine-tuning

Key Results

跨平台验证：在 9 个 robot 平台上验证了有效的 policy initialization
Fine-tuning 性能：fine-tune 后在目标任务上超越 from-scratch 训练
消融实验：详细分析了架构选择（transformer depth、patch size）和数据选择的影响
指令跟随：支持 language 和 goal image 两种 task specification
作为 baseline：被 π₀、OpenVLA 等后续工作广泛对比

Strengths & Weaknesses

Strengths:

灵活的 token 化设计，统一处理异构输入
Diffusion action head 生成连续 action，比 token 预测精度更高
模型轻量（27M/93M），部署成本低
完全开源（模型、代码、数据），生态完善
详细的消融实验为后续研究提供了有价值的参考

Weaknesses:

模型参数量较小，语义理解能力有限（无大规模 VLM 预训练）
在复杂长时域任务上能力不足
控制频率和灵巧操作能力不如 π₀
未利用 web-scale 预训练数据

Mind Map

mindmap
  root((Octo))
    Problem
      异构 robot 平台
      需要通用 policy
      开源生态缺失
    Method
      Transformer backbone
        Octo-Small 27M
        Octo-Base 93M
      Diffusion action head
        Action chunking
        连续 action 生成
      800k trajectories
        Open X-Embodiment
        9 个 robot 平台
      灵活 token 接口
        Language / Goal image
        任意 observation 组合
    Results
      9 平台验证
      高效 fine-tuning
      详细消融实验
    Limitations
      参数量小
      无 VLM 预训练
      复杂任务能力有限

Notes

Octo 的设计哲学是”灵活性优先”——统一 token 接口使其能适配几乎任何 robot setup
Diffusion action head 是重要的设计选择，介于 RT-2 的 discrete token 和 π₀ 的 flow matching 之间
27M/93M 的参数量说明 generalist policy 不一定需要巨大模型，关键是数据多样性和架构设计
与 OpenVLA 形成互补：Octo 更轻量灵活，OpenVLA 有更强的语义理解（VLM backbone）

MindFlow

Explorer