Summary
RT-1: Robotics Transformer for Real-World Control at Scale
- 核心: 用一个 35M-param decoder-only Transformer 把 image + language 映射到 discretized action tokens,在 130k episodes / 700+ tasks 的真实数据上证明 robot policy 也能”吸收数据”。
- 方法: FiLM-conditioned EfficientNet-B3 产生 vision-language tokens → TokenLearner 压缩 81→8 tokens → 8-layer Transformer 输出 11 维离散 action(arm 7 + base 3 + mode 1),每维 256 bins,3 Hz 闭环控制。
- 结果: seen tasks 97%,unseen 76%(+24% vs. baseline),distractor 83%(+36%),background 59%(+18%);能吸收 sim 数据与 Kuka QT-Opt 数据而几乎不伤原任务;在 SayCan 中完成 50 步 long-horizon 指令。
- Sources: paper | website | github
- Rating: 3 - Foundation (AR-token-VLA 范式的奠基工作,RT-2 / Octo / OpenVLA 等后续 VLA 无一不从这里继承”vision+language→discretized action tokens”的设计和大规模多任务 BC 配方。)
Key Takeaways:
- Action tokenization + decoder-only Transformer 是 scalable robot policy 的可行配方:把 11 维连续动作每维离散成 256 bins 后当 token 预测,统一了 language、vision 与 control 的接口,这一设计被 RT-2/Octo/OpenVLA 直接继承。
- Data diversity > data quantity:去掉 25% 的 tasks(保留 97% 的 data)比减掉 49% 的 data 对 generalization 的伤害还大。这是后来 Open-X / DROID 等跨任务、跨 embodiment 数据集扩张的核心依据。
- Cross-embodiment 迁移 “免费”:把 Kuka QT-Opt 的 209k bin-picking episodes 混入训练,EDR 机器人在 bin-picking 上从 22%→39%,几乎 2×;反证”single-robot, narrow-task”策略在泛化上是局部最优。
- 实时性 ≠ 大模型:为了 3 Hz 控制,模型只能 35M params;TokenLearner(81→8 token)把推理加速 2.4×,缓存 tokens 再加 1.7×。RT-1 展示了”架构工程 + 数据规模”比”裸堆参数”更重要。
- 局限很诚实:BC-only,不能超过 demonstrator;generalization 限于已见概念的组合,学不到全新运动;dexterity 不足。
Teaser. RT-1 在真实厨房中执行多种 pick / place / move / drawer 指令的 mosaic 演示。
问题设定与动机
问题:能否训练一个 single, capable, large multi-task backbone,在开放集的语言指令下控制真实机器人,并像 vision/NLP 领域的大模型一样表现出 zero-shot 泛化?
之前尝试为什么不够:
- Gato(Reed et al. 2022):generalist 声势大,但真实机器人任务只覆盖 colored block stacking,generalization 未评估。
- BC-Z(Jang et al. 2021):100 tasks, feedforward ResNet,continuous actions,generalization 有限。
- CLIPort / Perceiver-Actor:少量 demo 下高效学习特定任务,但不关心 scale。
RT-1 的 bet:问题不在架构花哨,而在 (a) 收集够大够 diverse 的真实数据,(b) 设计一个 high-capacity 但 real-time 的 Transformer。
数据:13 robots × 17 months × 130k episodes × 744 tasks
数据规模:~130k demonstrations,13 台 Everyday Robots mobile manipulator,17 个月,3 个 kitchen-based 环境(1 个 training classroom + 2 个 real office kitchens)。
任务组织:每条 episode 配一条自然语言指令(verb + noun(s)),按 verb 归成 skill。
Table 1. Skill 分布(共 744 tasks)
| Skill | Count | Example |
|---|---|---|
| Pick Object | 130 | pick iced tea can |
| Move Object Near Object | 337 | move pepsi can near rxbar blueberry |
| Place Object Upright | 8 | place water bottle upright |
| Knock Object Over | 8 | knock redbull can over |
| Open / Close Drawer | 6 | open the top drawer |
| Place Object into Receptacle | 84 | place brown chip bag into white bowl |
| Pick from Receptacle and Place | 162 | pick jalapeno chip bag from paper bowl and place on counter |
| Long-horizon additions | 9 | pull napkin out of dispenser |
| Total | 744 |
采集方式:2 VR remote teleop;系统自动给 operator 采样指令 + 场景随机化,保证覆盖均衡。
❓ 744 tasks 里 Move-Near 就占 337 / Pick 占 130,分布相当 long-tail。后续 data ablation 证明 diversity 比 quantity 更关键,但”数据不平衡”本身没有被系统 ablation——RT-1 可能对 dominant skill 做得特别好、对 8-count 的 upright/knock 学得很勉强(paper 的 per-skill 细表在 Appendix)。
模型架构
Figure 3. RT-1 架构:Instruction → USE embedding → FiLM-conditioned EfficientNet-B3 → TokenLearner → Transformer → Action tokens

Input:6 张 300×300 的历史图像 + 自然语言指令。
Instruction & image tokenization(16M params):
- 指令先经 Universal Sentence Encoder 产生 embedding。
- EfficientNet-B3(ImageNet pretrained)在 26 层 MBConv 中被 identity-initialized FiLM 层调制——FiLM 的 affine 参数初始化为 0,保证预训练权重初始等价,随后再慢慢接管。
- 每张 image 输出 9×9×512 feature map → flatten 成 81 vision-language tokens。
- 与 Gato 的关键差异:不把图 patchify 后独立 tokenize,而是早融合语言到视觉 backbone 里。
TokenLearner:每张图的 81 tokens 被 soft-selected 到 8 tokens,6 帧共 48 tokens 喂给 Transformer。推理加速 2.4×。
Transformer(19M params):decoder-only,8 self-attention layers,causal masking。
Action tokenization:每个 action dim 离散成 256 bins。Action 空间:arm 7 维(x, y, z, roll, pitch, yaw, gripper)+ base 3 维(x, y, yaw)+ 1 个 mode 切换(arm / base / terminate)= 11 维。
Loss:standard categorical cross-entropy + causal masking(同 Gato / Multi-game DT)。
Inference:3 Hz,< 100 ms budget。TokenLearner 省 2.4×,缓存过去帧的 tokens 再省 1.7×。另加 280 ms fixed-time waiting 保证 jitter-free。
实验
评估规模:3000+ real-world rollouts——当时最大规模的 robot learning evaluation 之一。
6.2 Overall: RT-1 vs. Gato vs. BC-Z / BC-Z XL
所有 baseline 都在 RT-1 同一份数据上训练(而非各自原版小数据),确保对比公平。Gato 从 1.2B 缩到 37M 以达到 3 Hz。
| Category | RT-1 | Gato | BC-Z | BC-Z XL |
|---|---|---|---|---|
| Seen tasks (>200) | 97% | 65% | 72% | 72% |
| Unseen tasks (21) | 76% | ~45% | 52% | 52% |
| Distractors (30) | 83% | ~47% | ~47% | ~47% |
| Backgrounds (22) | 59% | ~35% | ~41% | ~41% |
❓ 数字从 Table 2 读出,paper 未给全部小数点,本表以正文 “+24% / +36% / +18%” 回推近似值;严格比较要看 paper Table 2 的 screenshot。
Realistic L1/L2/L3(Table 3):真实厨房三个难度。RT-1 70% / 88 / 75 / 50,BC-Z XL 55 / 63 / 75 / 38,Gato 30 / 63 / 25 / 0。L3(全新物体/位置)Gato 完全失败,RT-1 仍有 50%。
6.3 异构数据吸收
Sim + Real(Table 4):加 sim 数据对 real seen tasks 没有 degrade;对”只在 sim 见过的物体”的 real 测试:23%→87%(+64%);对”物体在 sim 训练但 skill 组合未见过”的 real 测试:7%→33%(+26%)。
Kuka QT-Opt + EDR(Table 5):混入 Kuka 209k bin-picking episodes(RL 采集、不同 action 分布、不同 morphology、不同环境):
- Classroom eval:仅 -2%
- Bin-picking eval:22% → 39%(~2×)
- 单独用 Kuka 数据训后 EDR 跑 bin-picking:0%(印证直接迁移无效)
这是 cross-embodiment transfer 的一个早期强证据,直接催生了后续 Open-X-Embodiment 数据集的思想。
6.4 Long-horizon via SayCan
把 RT-1 接进 SayCan 框架(LLM 做 high-level 规划,value function 过滤不可执行动作)。
| Setting | Planning / Execution @ Kitchen1 | @ Kitchen2 |
|---|---|---|
| Original SayCan | 73 / 47 | - |
| SayCan + Gato | 87 / 33 | 87 / 0 |
| SayCan + BC-Z | 87 / 53 | 87 / 13 |
| SayCan + RT-1 | 87 / 67 | 87 / 67 |
RT-1 的关键是换厨房(Kitchen2 是 full OOD)不掉,这使 50-step 指令成为可能。
6.5 Data quantity vs. diversity (Table 7)
构造 diversity-narrow vs. quantity-small 两轴 ablation:
- 保 97% 数据但砍掉 25% tasks → generalization 跌幅 ≈ 减去 49% 数据。
- 结论:data diversity 更关键。
这一结论被后续 Open-X、DROID 的 scaling 实验反复验证,可以说是真实机器人学习领域最稳的一条”scaling law”。
关联工作
基于
- Transformer (Vaswani+ 2017): 直接的架构底座。
- Decision Transformer / Multi-game DT (Chen+ 2021, Lee+ 2022a): “sequence modeling for control” 的思想源。
- Gato (Reed+ 2022): generalist transformer agent;RT-1 明确对比并论证 Gato 的 image patch tokenize、无 language 早融合、无 real-time 考虑的不足。
- BC-Z (Jang+ 2021): language-conditioned BC 的 ResNet baseline;RT-1 的数据与 task 设置在精神上延续。
- SayCan (Ahn+ 2022): LLM planner,被用作 long-horizon eval harness。
- FiLM (Perez+ 2018) / EfficientNet (Tan+ 2019) / TokenLearner (Ryoo+ 2021) / USE (Cer+ 2018): 组件级基石。
- QT-Opt (Kalashnikov+ 2018): 提供 Kuka bin-picking 的跨形态训练数据。
对比
- Gato / BC-Z / BC-Z XL: 主要 baseline。RT-1 通过在同一份数据上重新训证明架构 + token 化设计本身贡献了可观的 delta,不是单纯”数据多”。
- Behavior Transformer (Shafiullah+ 2022), CLIPort (Shridhar+ 2021), Perceiver-Actor (Shridhar+ 2022), VIMA (Jiang+ 2022): 都是同期或稍前的 transformer-based robot policy,但各自在任务广度、数据规模、real-time 方面有所取舍。
方法相关(下游继承)
- RT-2: 把 RT-1 的 action tokenization 直接塞进 PaLI/PaLM-E VLM 里做 co-finetune——RT-1 的 token 化是 RT-2 得以 work 的前提。
- Octo: 在 Open-X 上训的 generalist policy,保留 RT-1 式 tokenized action 接口。
- OpenVLA: 开源版 RT-2 思路,action tokenizer 几乎直接沿用。
- PaLM-E: 同期的 multimodal embodied 模型,策略接口风格不同(PaLM-E 主要做 planning,RT-1 主要做 low-level control),两条路后来在 RT-2 汇合。
- Open-X-Embodiment / RT-X (2023): 把 RT-1 的 “mix-robot-data improves generalization” 直接 scale 成社区级数据集。
论文点评
Strengths
- Scale + Rigor 兼备的系统工作:17 个月、13 台机器人、3000+ real-world rollouts,在 robot learning 里几乎是 “AlexNet moment” 级别的工程投入。数据规模让结论 statistically meaningful。
- 架构决策 grounded in real-time 约束:从一开始就把 3 Hz / 100ms budget 写进问题定义,TokenLearner、token caching、35M params 都是围绕这个 constraint 设计的——这比”先堆大再谈落地”健康得多。
- Token-based action representation 是决定性 contribution:把 continuous control 变成离散语言-like token,打通了 RT-2/Octo/OpenVLA/π0 整条后续 AR-VLA 技术线。这个抽象的影响力远超单个 RT-1 模型。
- Data-diversity > data-quantity 的 ablation:结论简单但极 actionable,给社区指明了”要多样,不要大”的资源分配方向。
- Cross-embodiment 的实证:Kuka + EDR 混训不伤原任务且 2× 提升 bin-picking,直接为 Open-X 铺路。
- 诚实的 limitations 段:明确说 BC only、不能超过 demonstrator、不能学全新运动、dexterity 不足。
Weaknesses
- 架构组合偏复杂:FiLM + EfficientNet + TokenLearner + USE + decoder-only Transformer 的拼装工程味重,组件之间的 credit assignment 在 Appendix D.4 才做,main text 没充分讲清”哪个组件最 load-bearing”。后来的 OpenVLA 直接用 LLaVA backbone 简化掉,说明 RT-1 的 tokenizer 部分不是必要的。
- Task 分布 long-tail 但没被 ablate:Move-Near 占 337 / Pick 占 130,8-count 的 skill 几乎不可能贡献统计意义的 generalization 信号。“744 tasks” 数字 impressive,实际 effective task count 小得多。
- Baseline 被 nerf:Gato 从 1.2B 缩到 37M 以满足 3 Hz,原本 Gato 的 scaling 优势被迫放弃。这让 Gato 看起来弱于实际——公平性打折。
- Generalization 定义偏弱:unseen tasks 仍是”已见 verb + 已见 noun 的未见组合”,真正的 novel motion / novel affordance 没测。
- Data / task set 没完全开源:虽有 RT-1-data-release 的部分数据,但 744 tasks 对应的完整 teleop 数据、instruction 列表、随机化 script 未全部释放;后续 Open-X 里的 RT-1 subset 才算部分补齐。
- 3 Hz 对 dexterity 是硬 ceiling:很多细粒度操作需要 >10 Hz 控制;RT-1 的架构选择把自己限在 coarse manipulation。
可信评估
Artifact 可获取性
- 代码: inference-only(TF SavedModel 推理脚本 + 架构代码);训练 pipeline 未开源。repo 已 archived,pushed 于 2024-01-31,stars 1708。
- 模型权重: 3 个 TF SavedModel checkpoint——
rt1main(700 tasks 主模型)、rt1multirobot(EDR + Kuka 联训)、rt1simreal(sim+real 联训)。 - 训练细节: 超参与 high-level 数据配比在 paper Appendix 有,完整训练步数、优化器 schedule、data sampling 概率分布未全披露。
- 数据集: 部分公开(
gresearch/rt-1-data-releaseGCS bucket);744 tasks 完整 teleop 数据未一次性释出,社区后来在 Open-X-Embodiment 中见到 RT-1 的 subset。
Claim 可验证性
- ✅ 97% seen / 76% unseen / 83% distractor / 59% background:3000+ rollouts 支撑,paper Table 2 + Appendix 细分,社区多次引用且未出现反证。
- ✅ Sim + real 混训不伤 real、显著改善 sim-only 物体的 real 表现:Table 4 数字来自受控 ablation。
- ✅ Kuka + EDR 混训 2× bin-picking:Table 5 数字受控;Open-X 后续扩展实验进一步佐证跨形态混训的正向效应。
- ✅ Data diversity > quantity:Table 7 的设计是匹配对(相近 data % 下比 task %),归因相对干净。
- ⚠️ “能做 50 步 long-horizon 任务”:主要靠 SayCan 的 planner 能”断掉”失败步重规划;RT-1 本身的 per-step success 在 Kitchen2 仍约 67%,50 步成功率几何衰减——视频 demo 是 cherry-picked 成功案例的可能性不能排除。
- ⚠️ Gato baseline 对比:Gato 在 RT-1 数据上从 1.2B 缩到 37M 重训,不是真正的 Gato 原模型——结论是”在这个数据+参数预算下 RT-1 好”,不能直接读成”RT-1 架构优于 Gato 架构”。
- ❌ “Robotics Transformer 1”(命名暗示持续演进):严格说是 marketing 命名而非技术 claim,但也确实为 RT-2 / RT-X 的 sequel 铺了路,没什么可指责的。
Notes
- RT-1 的历史定位:它是把 “next-token prediction” 范式从 NLP 搬到 robot control 的第一次大规模、real-world、有说服力的 demonstration。后续 VLA(RT-2、Octo、OpenVLA、π0)的 action 接口基本都是 RT-1 的变种。
- 读这篇论文最大的启发不是某个技术细节,而是**“要投多大的工程才叫做完一个问题”**——17 月 + 13 机器人 + 3000 rollouts 的 scale 是小 lab 复现不动的,但也告诉我们:robot learning 里方法论的证伪/证实需要这种体量的真实实验,toy-scale 的 ablation 得出的结论未必 hold。
- 一个值得追问的对立假设:如果当年给 Gato 同等的 3 Hz 预算 + TokenLearner,Gato 是不是也能达到 RT-1 的数字? paper 没直接回答。看后续 OpenVLA 把 LLaVA backbone 直接塞进来也能做到 RT-1+ 的水平,说明 RT-1 的”FiLM-EfficientNet + TokenLearner”组合可能不是必要而是充分条件。
- 对自己的研究:VLA 方向要认真读这条主线 RT-1 → RT-2 → Open-X → Octo → OpenVLA → π0,每一篇都在修正前一篇的假设。RT-1 的”data diversity > quantity”结论在今天 Open-X scale 下是否还成立,是值得重新验证的问题。
Rating
Metrics (as of 2026-04-22): citation=2079, influential=173 (8.3%), velocity=52.0/mo; HF upvotes=5; github 1708⭐ / forks=198 / 90d commits=0 / pushed 812d ago · stale
分数:3 - Foundation
理由:citation 2079、52/月 velocity 稳在 VLA 方向 top-tier,influential/total ~8.3% 接近典型 10%——比 RT-2 的 “高引高曝光但继承性弱” 略低、但比一般 workshop paper 高得多,体现”被实质继承 + 被广泛引用”的双重地位。repo 已 archived(stale),但这恰恰是因为社区继承者(Octo / OpenVLA / Open-X)把 RT-1 的核心思路 superseded 成更开放的生态——历史性地位而非当前活跃度决定它是 Foundation。读 VLA 不读 RT-1 是不可能建立完整 mental model 的,这是 “3 vs. 2” 的分水岭。