Summary

RT-2 是 Google DeepMind 提出的开创性 VLA 模型,首次将预训练 VLM(PaLM-E 12B / PaLI-X 55B)直接用于机器人控制,将 robot action 表示为 text token 序列,通过 co-fine-tuning 在 web 数据和 robot 数据上联合训练,使机器人获得了从互联网知识到物理操作的迁移能力。

Problem & Motivation

机器人领域的数据量远不及 NLP/CV,直接在有限 robot 数据上训练难以泛化。作者提出利用大规模 VLM 的预训练知识(语义理解、常识推理),将其直接迁移到机器人控制任务中。核心问题:能否让 VLM 不仅理解视觉和语言,还能直接输出 robot action?

Method

核心思路:Actions as Tokens

1. Action Tokenization

  • 将 robot action(末端执行器位置/旋转变化量 + gripper 开合)离散化为 256 个 bin
  • 每个 action 维度映射为一个 token,形成如 “1 128 91 241 5 101 127 217” 的字符串
  • 第一个 token 表示 episode 是否终止
  • 7-DoF action space:x, y, z, roll, pitch, yaw, gripper

2. VLM Backbone

  • 两个实例化版本:
    • RT-2-PaLI-X(55B):基于 PaLI-X,ViT-22B vision encoder
    • RT-2-PaLM-E(12B):基于 PaLM-E,ViT-4B vision encoder
  • 保留 VLM 的视觉和语言理解能力

3. Co-fine-tuning

  • 在 robot trajectory 数据和原始 web vision-language 数据上联合微调
  • 保留部分 vision-language 数据防止灾难性遗忘
  • Robot 数据来自 RT-1 数据集(约 130k episodes,单臂 Everyday Robots)

4. 推理

  • 输入:当前图像 + 语言指令
  • 输出:autoregressive 生成 action token 序列
  • 控制频率:~3 Hz(受限于大模型推理速度)

Key Results

  • 泛化能力:在 unseen objects/scenes 上相比 RT-1 和 VC-1 提升约 2×
  • Emergent reasoning:在需要符号理解、推理、人物识别的任务上提升 3×
    • 例:将苹果放到”与草莓同色”的碗中(需要推理颜色)
    • 例:把动物玩具放在正确的国家国旗旁边
  • Chain-of-thought:通过 CoT prompting 实现多步语义推理
  • Language-Table benchmark:90% vs 之前 SOTA 77%
  • 55B 版本略优于 12B,但差距不大

Strengths & Weaknesses

Strengths:

  • 开创了 VLA 范式:VLM + action tokenization,影响了后续所有 VLA 工作
  • 证明了 web-scale 预训练知识可以迁移到 robot control
  • Emergent capabilities(符号推理、语义泛化)非常有说服力
  • Co-fine-tuning 有效防止灾难性遗忘

Weaknesses:

  • Action 离散化损失精度,控制频率低(~3 Hz),不适合灵巧操作
  • 模型巨大(55B),推理成本高,难以 on-board 部署
  • 仅在单臂操作上验证,action space 有限
  • 无 open-source 模型权重
  • 不支持 navigation 或 mobile base

Mind Map

mindmap
  root((RT-2))
    Problem
      Robot 数据有限
      VLM 知识未迁移到 action
    Method
      Actions as Tokens
        离散化 256 bins
        7-DoF action string
      VLM Backbone
        PaLI-X 55B
        PaLM-E 12B
      Co-fine-tuning
        Web + Robot 数据
        防止灾难性遗忘
    Results
      泛化提升 2x
      Emergent reasoning 3x
      Chain-of-thought 推理
    Limitations
      低频控制 3 Hz
      模型巨大 55B
      仅单臂操作
      未开源

Notes

  • RT-2 是 VLA 领域的奠基性工作,确立了”VLM backbone + action token”的范式
  • 后续 π₀ 用 flow matching 替代 autoregressive token 预测,解决了低频控制问题
  • OpenVLA 证明了这一范式可以用更小的开源模型(7B)复现
  • 控制频率(~3 Hz)是 autoregressive action generation 的根本瓶颈,这直接催生了 flow matching / diffusion 等连续 action 生成方法