RT-1: Robotics Transformer for Real-World Control at Scale

Summary

RT-1: Robotics Transformer for Real-World Control at Scale

核心: 用一个 35M-param decoder-only Transformer 把 image + language 映射到 discretized action tokens，在 130k episodes / 700+ tasks 的真实数据上证明 robot policy 也能”吸收数据”。

方法: FiLM-conditioned EfficientNet-B3 产生 vision-language tokens → TokenLearner 压缩 81→8 tokens → 8-layer Transformer 输出 11 维离散 action（arm 7 + base 3 + mode 1），每维 256 bins，3 Hz 闭环控制。

结果: seen tasks 97%，unseen 76%（+24% vs. baseline），distractor 83%（+36%），background 59%（+18%）；能吸收 sim 数据与 Kuka QT-Opt 数据而几乎不伤原任务；在 SayCan 中完成 50 步 long-horizon 指令。

Sources: paper | website | github

Rating: 3 - Foundation （AR-token-VLA 范式的奠基工作，RT-2 / Octo / OpenVLA 等后续 VLA 无一不从这里继承”vision+language→discretized action tokens”的设计和大规模多任务 BC 配方。）

Key Takeaways:

Action tokenization + decoder-only Transformer 是 scalable robot policy 的可行配方：把 11 维连续动作每维离散成 256 bins 后当 token 预测，统一了 language、vision 与 control 的接口，这一设计被 RT-2/Octo/OpenVLA 直接继承。
Data diversity > data quantity：去掉 25% 的 tasks（保留 97% 的 data）比减掉 49% 的 data 对 generalization 的伤害还大。这是后来 Open-X / DROID 等跨任务、跨 embodiment 数据集扩张的核心依据。
Cross-embodiment 迁移 “免费”：把 Kuka QT-Opt 的 209k bin-picking episodes 混入训练，EDR 机器人在 bin-picking 上从 22%→39%，几乎 2×；反证”single-robot, narrow-task”策略在泛化上是局部最优。
实时性 ≠ 大模型：为了 3 Hz 控制，模型只能 35M params；TokenLearner（81→8 token）把推理加速 2.4×，缓存 tokens 再加 1.7×。RT-1 展示了”架构工程 + 数据规模”比”裸堆参数”更重要。
局限很诚实：BC-only，不能超过 demonstrator；generalization 限于已见概念的组合，学不到全新运动；dexterity 不足。

Teaser. RT-1 在真实厨房中执行多种 pick / place / move / drawer 指令的 mosaic 演示。

问题设定与动机

问题：能否训练一个 single, capable, large multi-task backbone，在开放集的语言指令下控制真实机器人，并像 vision/NLP 领域的大模型一样表现出 zero-shot 泛化？

之前尝试为什么不够：

Gato（Reed et al. 2022）：generalist 声势大，但真实机器人任务只覆盖 colored block stacking，generalization 未评估。
BC-Z（Jang et al. 2021）：100 tasks, feedforward ResNet，continuous actions，generalization 有限。
CLIPort / Perceiver-Actor：少量 demo 下高效学习特定任务，但不关心 scale。

RT-1 的 bet：问题不在架构花哨，而在 (a) 收集够大够 diverse 的真实数据，(b) 设计一个 high-capacity 但 real-time 的 Transformer。

数据：13 robots × 17 months × 130k episodes × 744 tasks

数据规模：~130k demonstrations，13 台 Everyday Robots mobile manipulator，17 个月，3 个 kitchen-based 环境（1 个 training classroom + 2 个 real office kitchens）。

任务组织：每条 episode 配一条自然语言指令（verb + noun(s)），按 verb 归成 skill。

Table 1. Skill 分布（共 744 tasks）

Skill	Count	Example
Pick Object	130	pick iced tea can
Move Object Near Object	337	move pepsi can near rxbar blueberry
Place Object Upright	8	place water bottle upright
Knock Object Over	8	knock redbull can over
Open / Close Drawer	6	open the top drawer
Place Object into Receptacle	84	place brown chip bag into white bowl
Pick from Receptacle and Place	162	pick jalapeno chip bag from paper bowl and place on counter
Long-horizon additions	9	pull napkin out of dispenser
Total	744

采集方式：2 VR remote teleop；系统自动给 operator 采样指令 + 场景随机化，保证覆盖均衡。

❓ 744 tasks 里 Move-Near 就占 337 / Pick 占 130，分布相当 long-tail。后续 data ablation 证明 diversity 比 quantity 更关键，但”数据不平衡”本身没有被系统 ablation——RT-1 可能对 dominant skill 做得特别好、对 8-count 的 upright/knock 学得很勉强（paper 的 per-skill 细表在 Appendix）。

模型架构

Figure 3. RT-1 架构：Instruction → USE embedding → FiLM-conditioned EfficientNet-B3 → TokenLearner → Transformer → Action tokens

Input：6 张 300×300 的历史图像 + 自然语言指令。

Instruction & image tokenization（16M params）：

指令先经 Universal Sentence Encoder 产生 embedding。
EfficientNet-B3（ImageNet pretrained）在 26 层 MBConv 中被 identity-initialized FiLM 层调制——FiLM 的 affine 参数初始化为 0，保证预训练权重初始等价，随后再慢慢接管。
每张 image 输出 9×9×512 feature map → flatten 成 81 vision-language tokens。
与 Gato 的关键差异：不把图 patchify 后独立 tokenize，而是早融合语言到视觉 backbone 里。

TokenLearner：每张图的 81 tokens 被 soft-selected 到 8 tokens，6 帧共 48 tokens 喂给 Transformer。推理加速 2.4×。

Transformer（19M params）：decoder-only，8 self-attention layers，causal masking。

Action tokenization：每个 action dim 离散成 256 bins。Action 空间：arm 7 维（x, y, z, roll, pitch, yaw, gripper）+ base 3 维（x, y, yaw）+ 1 个 mode 切换（arm / base / terminate）= 11 维。

Loss：standard categorical cross-entropy + causal masking（同 Gato / Multi-game DT）。

Inference：3 Hz，< 100 ms budget。TokenLearner 省 2.4×，缓存过去帧的 tokens 再省 1.7×。另加 280 ms fixed-time waiting 保证 jitter-free。

实验

评估规模：3000+ real-world rollouts——当时最大规模的 robot learning evaluation 之一。

6.2 Overall: RT-1 vs. Gato vs. BC-Z / BC-Z XL

所有 baseline 都在 RT-1 同一份数据上训练（而非各自原版小数据），确保对比公平。Gato 从 1.2B 缩到 37M 以达到 3 Hz。

Category	RT-1	Gato	BC-Z	BC-Z XL
Seen tasks (>200)	97%	65%	72%	72%
Unseen tasks (21)	76%	~45%	52%	52%
Distractors (30)	83%	~47%	~47%	~47%
Backgrounds (22)	59%	~35%	~41%	~41%

❓ 数字从 Table 2 读出，paper 未给全部小数点，本表以正文 “+24% / +36% / +18%” 回推近似值；严格比较要看 paper Table 2 的 screenshot。

Realistic L1/L2/L3（Table 3）：真实厨房三个难度。RT-1 70% / 88 / 75 / 50，BC-Z XL 55 / 63 / 75 / 38，Gato 30 / 63 / 25 / 0。L3（全新物体/位置）Gato 完全失败，RT-1 仍有 50%。

6.3 异构数据吸收

Sim + Real（Table 4）：加 sim 数据对 real seen tasks 没有 degrade；对”只在 sim 见过的物体”的 real 测试：23%→87%（+64%）；对”物体在 sim 训练但 skill 组合未见过”的 real 测试：7%→33%（+26%）。

Kuka QT-Opt + EDR（Table 5）：混入 Kuka 209k bin-picking episodes（RL 采集、不同 action 分布、不同 morphology、不同环境）：

Classroom eval：仅 -2%
Bin-picking eval：22% → 39%（~2×）
单独用 Kuka 数据训后 EDR 跑 bin-picking：0%（印证直接迁移无效）

这是 cross-embodiment transfer 的一个早期强证据，直接催生了后续 Open-X-Embodiment 数据集的思想。

6.4 Long-horizon via SayCan

把 RT-1 接进 SayCan 框架（LLM 做 high-level 规划，value function 过滤不可执行动作）。

Setting	Planning / Execution @ Kitchen1	@ Kitchen2
Original SayCan	73 / 47	-
SayCan + Gato	87 / 33	87 / 0
SayCan + BC-Z	87 / 53	87 / 13
SayCan + RT-1	87 / 67	87 / 67

RT-1 的关键是换厨房（Kitchen2 是 full OOD）不掉，这使 50-step 指令成为可能。

6.5 Data quantity vs. diversity (Table 7)

构造 diversity-narrow vs. quantity-small 两轴 ablation：

保 97% 数据但砍掉 25% tasks → generalization 跌幅 ≈ 减去 49% 数据。
结论：data diversity 更关键。

这一结论被后续 Open-X、DROID 的 scaling 实验反复验证，可以说是真实机器人学习领域最稳的一条”scaling law”。

关联工作

基于

Transformer (Vaswani+ 2017): 直接的架构底座。
Decision Transformer / Multi-game DT (Chen+ 2021, Lee+ 2022a): “sequence modeling for control” 的思想源。
Gato (Reed+ 2022): generalist transformer agent；RT-1 明确对比并论证 Gato 的 image patch tokenize、无 language 早融合、无 real-time 考虑的不足。
BC-Z (Jang+ 2021): language-conditioned BC 的 ResNet baseline；RT-1 的数据与 task 设置在精神上延续。
SayCan (Ahn+ 2022): LLM planner，被用作 long-horizon eval harness。
FiLM (Perez+ 2018) / EfficientNet (Tan+ 2019) / TokenLearner (Ryoo+ 2021) / USE (Cer+ 2018): 组件级基石。
QT-Opt (Kalashnikov+ 2018): 提供 Kuka bin-picking 的跨形态训练数据。

对比

Gato / BC-Z / BC-Z XL: 主要 baseline。RT-1 通过在同一份数据上重新训证明架构 + token 化设计本身贡献了可观的 delta，不是单纯”数据多”。
Behavior Transformer (Shafiullah+ 2022), CLIPort (Shridhar+ 2021), Perceiver-Actor (Shridhar+ 2022), VIMA (Jiang+ 2022): 都是同期或稍前的 transformer-based robot policy，但各自在任务广度、数据规模、real-time 方面有所取舍。

方法相关（下游继承）

RT-2: 把 RT-1 的 action tokenization 直接塞进 PaLI/PaLM-E VLM 里做 co-finetune——RT-1 的 token 化是 RT-2 得以 work 的前提。
Octo: 在 Open-X 上训的 generalist policy，保留 RT-1 式 tokenized action 接口。
OpenVLA: 开源版 RT-2 思路，action tokenizer 几乎直接沿用。
PaLM-E: 同期的 multimodal embodied 模型，策略接口风格不同（PaLM-E 主要做 planning，RT-1 主要做 low-level control），两条路后来在 RT-2 汇合。
Open-X-Embodiment / RT-X (2023): 把 RT-1 的 “mix-robot-data improves generalization” 直接 scale 成社区级数据集。

论文点评

Strengths

Scale + Rigor 兼备的系统工作：17 个月、13 台机器人、3000+ real-world rollouts，在 robot learning 里几乎是 “AlexNet moment” 级别的工程投入。数据规模让结论 statistically meaningful。
架构决策 grounded in real-time 约束：从一开始就把 3 Hz / 100ms budget 写进问题定义，TokenLearner、token caching、35M params 都是围绕这个 constraint 设计的——这比”先堆大再谈落地”健康得多。
Token-based action representation 是决定性 contribution：把 continuous control 变成离散语言-like token，打通了 RT-2/Octo/OpenVLA/π0 整条后续 AR-VLA 技术线。这个抽象的影响力远超单个 RT-1 模型。
Data-diversity > data-quantity 的 ablation：结论简单但极 actionable，给社区指明了”要多样，不要大”的资源分配方向。
Cross-embodiment 的实证：Kuka + EDR 混训不伤原任务且 2× 提升 bin-picking，直接为 Open-X 铺路。
诚实的 limitations 段：明确说 BC only、不能超过 demonstrator、不能学全新运动、dexterity 不足。

Weaknesses

架构组合偏复杂：FiLM + EfficientNet + TokenLearner + USE + decoder-only Transformer 的拼装工程味重，组件之间的 credit assignment 在 Appendix D.4 才做，main text 没充分讲清”哪个组件最 load-bearing”。后来的 OpenVLA 直接用 LLaVA backbone 简化掉，说明 RT-1 的 tokenizer 部分不是必要的。
Task 分布 long-tail 但没被 ablate：Move-Near 占 337 / Pick 占 130，8-count 的 skill 几乎不可能贡献统计意义的 generalization 信号。“744 tasks” 数字 impressive，实际 effective task count 小得多。
Baseline 被 nerf：Gato 从 1.2B 缩到 37M 以满足 3 Hz，原本 Gato 的 scaling 优势被迫放弃。这让 Gato 看起来弱于实际——公平性打折。
Generalization 定义偏弱：unseen tasks 仍是”已见 verb + 已见 noun 的未见组合”，真正的 novel motion / novel affordance 没测。
Data / task set 没完全开源：虽有 RT-1-data-release 的部分数据，但 744 tasks 对应的完整 teleop 数据、instruction 列表、随机化 script 未全部释放；后续 Open-X 里的 RT-1 subset 才算部分补齐。
3 Hz 对 dexterity 是硬 ceiling：很多细粒度操作需要 >10 Hz 控制；RT-1 的架构选择把自己限在 coarse manipulation。

可信评估

Artifact 可获取性

代码: inference-only（TF SavedModel 推理脚本 + 架构代码）；训练 pipeline 未开源。repo 已 archived，pushed 于 2024-01-31，stars 1708。
模型权重: 3 个 TF SavedModel checkpoint—— rt1main（700 tasks 主模型）、rt1multirobot（EDR + Kuka 联训）、rt1simreal（sim+real 联训）。
训练细节: 超参与 high-level 数据配比在 paper Appendix 有，完整训练步数、优化器 schedule、data sampling 概率分布未全披露。
数据集: 部分公开（gresearch/rt-1-data-release GCS bucket）；744 tasks 完整 teleop 数据未一次性释出，社区后来在 Open-X-Embodiment 中见到 RT-1 的 subset。

Claim 可验证性

✅ 97% seen / 76% unseen / 83% distractor / 59% background：3000+ rollouts 支撑，paper Table 2 + Appendix 细分，社区多次引用且未出现反证。
✅ Sim + real 混训不伤 real、显著改善 sim-only 物体的 real 表现：Table 4 数字来自受控 ablation。
✅ Kuka + EDR 混训 2× bin-picking：Table 5 数字受控；Open-X 后续扩展实验进一步佐证跨形态混训的正向效应。
✅ Data diversity > quantity：Table 7 的设计是匹配对（相近 data % 下比 task %），归因相对干净。
⚠️ “能做 50 步 long-horizon 任务”：主要靠 SayCan 的 planner 能”断掉”失败步重规划；RT-1 本身的 per-step success 在 Kitchen2 仍约 67%，50 步成功率几何衰减——视频 demo 是 cherry-picked 成功案例的可能性不能排除。
⚠️ Gato baseline 对比：Gato 在 RT-1 数据上从 1.2B 缩到 37M 重训，不是真正的 Gato 原模型——结论是”在这个数据+参数预算下 RT-1 好”，不能直接读成”RT-1 架构优于 Gato 架构”。
❌ “Robotics Transformer 1”（命名暗示持续演进）：严格说是 marketing 命名而非技术 claim，但也确实为 RT-2 / RT-X 的 sequel 铺了路，没什么可指责的。

Notes

RT-1 的历史定位：它是把 “next-token prediction” 范式从 NLP 搬到 robot control 的第一次大规模、real-world、有说服力的 demonstration。后续 VLA（RT-2、Octo、OpenVLA、π0）的 action 接口基本都是 RT-1 的变种。
读这篇论文最大的启发不是某个技术细节，而是**“要投多大的工程才叫做完一个问题”**——17 月 + 13 机器人 + 3000 rollouts 的 scale 是小 lab 复现不动的，但也告诉我们：robot learning 里方法论的证伪/证实需要这种体量的真实实验，toy-scale 的 ablation 得出的结论未必 hold。
一个值得追问的对立假设：如果当年给 Gato 同等的 3 Hz 预算 + TokenLearner，Gato 是不是也能达到 RT-1 的数字？ paper 没直接回答。看后续 OpenVLA 把 LLaVA backbone 直接塞进来也能做到 RT-1+ 的水平，说明 RT-1 的”FiLM-EfficientNet + TokenLearner”组合可能不是必要而是充分条件。
对自己的研究：VLA 方向要认真读这条主线 RT-1 → RT-2 → Open-X → Octo → OpenVLA → π0，每一篇都在修正前一篇的假设。RT-1 的”data diversity > quantity”结论在今天 Open-X scale 下是否还成立，是值得重新验证的问题。

Rating

Metrics (as of 2026-04-22): citation=2079, influential=173 (8.3%), velocity=52.0/mo; HF upvotes=5; github 1708⭐ / forks=198 / 90d commits=0 / pushed 812d ago · stale

分数：3 - Foundation

理由：citation 2079、52/月 velocity 稳在 VLA 方向 top-tier，influential/total ~8.3% 接近典型 10%——比 RT-2 的 “高引高曝光但继承性弱” 略低、但比一般 workshop paper 高得多，体现”被实质继承 + 被广泛引用”的双重地位。repo 已 archived（stale），但这恰恰是因为社区继承者（Octo / OpenVLA / Open-X）把 RT-1 的核心思路 superseded 成更开放的生态——历史性地位而非当前活跃度决定它是 Foundation。读 VLA 不读 RT-1 是不可能建立完整 mental model 的，这是 “3 vs. 2” 的分水岭。

MindFlow

Explorer

RT-1: Robotics Transformer for Real-World Control at Scale

Summary

问题设定与动机

数据：13 robots × 17 months × 130k episodes × 744 tasks

模型架构

实验

6.2 Overall: RT-1 vs. Gato vs. BC-Z / BC-Z XL

6.3 异构数据吸收

6.4 Long-horizon via SayCan

6.5 Data quantity vs. diversity (Table 7)

关联工作

基于

对比

方法相关（下游继承）

论文点评

Strengths

Weaknesses

可信评估

Artifact 可获取性

Claim 可验证性

Notes

Rating

Table of Contents