Summary

GEN-0: Embodied Foundation Models That Scale with Physical Interaction

  • 核心: Generalist AI 公开他们的第一代 embodied foundation model GEN-0,宣称在 270K 小时真实操作数据上观察到 robotics 领域的 scaling laws,并出现 7B 处的”intelligence threshold”相变。
  • 方法: Decoder-only 架构 + “Harmonic Reasoning”(异步连续时间的 sensing/acting token 流,避免 System1/System2 分离或 inference-time guidance);270K 小时真实人类操作数据预训练,10K 小时/周新增;多模型尺寸(1B/6B/7B/10B+)扫描。
  • 结果: 1B 模型在大数据下出现 ossification;6B 受益但有限;7B+ 解锁迁移;real-robot 上 5.6h post-training 即可见效,full pretrain + 550h post-train 个别任务达 99% 成功率。
  • Sources: website
  • Rating: 3 - Foundation(首次把 “robotics 是否存在 scaling laws” 推到有可测形式的实证层面,ossification 临界 size / pretrain→post-train power law / reverse-KL 区分 SFT-vs-RL 数据这三个观察是后续 data-centric VLA 研究必须对照的参考点。)

Key Takeaways:

  1. 首次在 robotics 观察到 ossification 相变:1B 模型在大量预训练数据下反而无法吸收新信息(model weights 失去可塑性),需要 ≥7B 才能突破——比 LLM 中观察到的 ossification 临界 size(O(10M))大两个数量级,作者用 Moravec’s Paradox 解读。
  2. Robotics 出现 power-law scaling:在 fixed downstream finetune budget 下,validation error 关于预训练数据量 D 满足 ,跨 16 个任务集一致——可定量回答”还需多少 pretraining data 达到目标 error”。
  3. Harmonic Reasoning:连续时间的异步 sensing/acting token 流,让单一大模型在物理时钟下”边想边动”,绕过 π0/Helix 等 dual-system 设计与 Real-Time Chunking 这类 inference-time trick。
  4. Data engine 是真护城河:270K 小时的 in-house manipulation 数据 + 10K 小时/周增长 + 全球数据采集网络,远超公开 robotics 数据集,是文中 scaling 结论成立的物质基础。
  5. Data 质量 > 数据量:8 种 pretraining 数据混合的 ablation 显示,prediction error 与 reverse-KL 共低的混合更适合 SFT,prediction error 高但 reverse-KL 低的混合更适合 post-training RL(多模分布有利于探索)。

Teaser. GEN-0 模型在多种长程灵巧操作任务上的 demo 集锦。


Background:Why scaling laws for robotics

Robotics 领域过去主要靠 vision-language pretraining 转移语义泛化能力(如 PaLM-E 一脉),但缺少在机器人本域建立 scaling laws 的证据:模型/数据/算力增加是否带来可预测的能力增长?这一直是 LLM 范式的核心,也是 robotics 一直缺的部分。GEN-0 的核心 claim 是:在足够大的真实数据规模上,他们看到了和 LLM 类似的 scaling 行为,但临界模型规模显著高于 LLM——这指向 Moravec’s Paradox 的一种实证形式:人类觉得 effortless 的感知和灵巧操作,反而需要更多 compute。

Body 的核心论点按四块展开:(i) Intelligence threshold / ossification、(ii) Pretrain → post-train scaling laws、(iii) Data engine、(iv) Science of pretraining。


Surpassing the Intelligence Threshold

作者扫描 1B / 6B / 7B 三个模型尺寸,在一个完全 held-out(zero-shot)的长程下游任务上看 next-action validation prediction error 随 pretraining compute 的演化。结论:

  • 1B:训练越久,validation error 反而上升或停滞——典型 ossification(模型权重无法吸收新信息)。
  • 6B:受益于 pretraining,多任务能力开始显现。
  • 7B+:可以”内化”大规模预训练数据,下游只需几千 step 的 post-training 就能迁移。

Figure 1. 不同模型尺寸在 held-out 下游任务上的 zero-shot prediction error 随 pretraining compute 演化。1B 出现明显早期 ossification,6B 与 7B 依次解锁吸收能力。x 轴对 GEN-0 7B 的 compute 归一化。

❓ 这里的 ossification 定义和 LLM 文献略有不同:原本指 pretrain→finetune 阶段的”被冻结”现象(Springer et al., 2025),作者在 footnote 8 也承认他们说的是纯预训练阶段 zero-shot 泛化能力的退化。这个换了语境的术语借用值得警惕——是同一现象还是只是命名相似?文中没有给出 weight-level 的诊断(比如 effective rank、gradient norm 等)证据,目前是行为层面的观察。

❓ 为什么阈值正好在 7B?是数据多样性的函数还是某种本征属性?文中没有给 6.5B / 7.5B 等更细的扫描。“phase transition” 是个强 claim,但只有 3 个 size 的 evidence 支持。

文章已说他们把模型 scale 到了 10B+,并观察到”越来越少 post-training”的 fast adaptation——但这部分没有给具体数字或图。


Scaling Laws for Robotics

第二类 scaling law 关注:pretraining 收益是否能持续传到 post-training(finetune)。作者:

  1. 取一系列在不同子集大小预训练的 GEN-0 checkpoint。
  2. 对每个 checkpoint 用同样的 multi-task language-conditioned 数据做 post-training(一次 SFT 16 个任务集)。
  3. 评估每个任务集的 validation loss 与 next-action prediction error。

Figure 2. 16 个任务集上,pretraining 数据量越大(不同颜色),post-training 后的 multi-task validation loss(top)和 next-action prediction error(bottom 4×4 grid)越低。任务覆盖灵巧度(搭乐高)、行业 workflow(fast food packing)、泛化(”_ anything”)。

进一步在真实机器人上做 blind A/B 评估,验证 validation error 的改善能转化为成功率:

Figure 3. 真实机器人 closed-loop 评估。颜色表示不同 pretrain 规模的 checkpoint。左:仅 5.6 小时(1%)task-specific post-training 数据;右:full pretrain + 550+ 小时 task-specific 数据,最佳模型可达 99% 峰值成功率。注意 pretrain 数据与 post-train 数据由不同人在不同环境采集,确保无 overlap。

最后给出显式的 power-law 形式。给定固定的 finetune budget 与下游任务,预训练数据量 D 与 validation error 的关系:

Equation 1. Pretraining-data scaling law for downstream task error

符号说明 是预训练数据集大小(以 action trajectories 数计), 是 task-specific 临界常数, 是 task-specific 指数。 含义:定量预测”达到给定 prediction error 需多少 pretraining data”,并与 post-training data 形成 trade-off。

Figure 4. 衣物处理(Clothes Handling:分拣、抚平、扣纽扣、挂衣)任务上的 scaling law 拟合。可外推到 1B action trajectories。

❓ Figure 2 和 Figure 4 用的 metric 都是 next-action prediction error / validation loss,不是真实机器人成功率。Figure 3 才是真机评估,但只显示离散柱状对比,没有拟合 power law。如果拿真机成功率拟合 power law,曲率与外推可信度可能完全不同——LLM 文献里 cross-entropy 与 downstream metric 的 scaling law 也有显著 mismatch(如 emergent abilities 之争)。这是论文论证链中最弱的一环。

❓ “no overlap between pretraining and post-training datasets” 这个 protocol 很关键,但 overlap 的定义只在 collector 和环境层面排除——任务、技能、物体类别层面的隐性重叠如何控制?没有说明。


Robotics is No Longer Limited By Data

GEN-0 的真正”杀手级”卖点是数据规模:

  • 270K 小时真实操作数据
  • 1000+ 家庭、仓库、工作场所
  • 全球 1000+ 数据采集设备和机器人
  • 增长速度 10K 小时/周(且加速)
  • 训练吞吐:每天可消化 6.85 年的真实操作经验

Figure 5. GEN-0 训练数据相比已知最大公开 robotics 数据集的对比(截至 2025-11)。

为支持这一规模,他们自建了硬件、dataloader、网络(包括”laying new dedicated Internet lines”)、O(10K) cores 的多模态数据处理流水线、数十 PB 的压缩存储,并复用前沿 video FM 的数据加载技术。

❓ 这是 closed-source 的”data moat”叙事——外界无法验证数据规模与多样性的真实结构。如果这些 claim 属实,单一公司的数据规模已超过整个公开 robotics 学术社区的总和,对开源研究的相对位置是结构性挑战。

Mapping the Universe of Manipulation

作者展示了一个内部数据探索工具,对预训练数据的语言标签 embedding 做 t-SNE,可以按文本检索附近区域的 trajectory:

Video 1. <1% 预训练数据的 t-SNE 可视化导航工具,演示按文本描述检索最近邻区域并随机采样视频。


Science of Pretraining

更有意思的是 ablation:他们与多个 data foundry 合作伙伴各自按不同 collection 方法(Class 1 = task-specific、Class 3 = do-anything、Class 2 = 中间)采集数据,比较各 mixture 在 10 个长程下游任务上的表现,分为 Dexterity / Applications / Generalization 三个维度。

衡量指标除了常规 prediction MSE,还引入了 reverse KL:

Equation 2. Reverse KL 的 Monte-Carlo 估计

符号说明 是 policy 在 个采样 action 上构造的 unit-variance Gaussian 混合(mode-seeking 视角), 是以 ground-truth 为均值的 unit-variance Gaussian。 含义:reverse KL 偏好 mode-seeking,因此能捕捉 policy 是否分布性地”贴住”ground-truth 模式,而 forward KL 则偏好 mode-covering。这是 imitation learning 的 f-divergence 视角的延伸(Ke et al., 2020)。

Table 1. 不同 pretraining 数据混合(partner × class)在 10 个下游任务集(按 Dexterity / Applications / Generalization 分组)上的 finetune 后 prediction error 和 reverse KL(数值越小越好)。

Partner & Class (Pred Err)DexterityApplicationsGeneralization
Partner A Class 10.003076820.003341550.00308992
Partner A Class 20.003061960.003332530.00306503
Partner A Class 30.003057280.003313090.00305888
Partner A Class 2 + 30.003159800.003418990.00315661
Partner B Class 10.003027280.003303650.00304627
Partner B Class 2 Objs0.003144150.003411470.00315975
Partner B Class 2 Skills0.003019950.003292350.00305292
Partner C Class 30.003062470.003321280.00307944
Partner & Class (Rev KL)DexterityApplicationsGeneralization
Partner A Class 10.002005850.002588980.00198088
Partner A Class 20.001887440.002446420.00193866
Partner A Class 30.001983320.002460890.00190205
Partner A Class 2 + 30.001841100.002285880.00185473
Partner B Class 10.001892860.002460510.00192307
Partner B Class 2 Objs0.001847190.002332090.00186721
Partner B Class 2 Skills0.001825610.002422930.00190308
Partner C Class 30.001921340.002369010.00190956

经验观察:

  • 低 pred err + 低 reverse KL → 适合 SFT post-training(model 既精确又分布贴近 ground-truth 模式)
  • 高 pred err + 低 reverse KL → 分布更 multimodal,适合 post-training RL(多模分布留出探索空间)

❓ Table 1 数值差异极小(pred err 在 0.00302–0.00316,差不多 5% 的相对差距)。在 low-noise validation 下这种差距是否真的能 robustly 转化为 post-training 后的 task success 差距?文中并没有给真机评估佐证 Table 1 的排序——和 Figure 3 一样,最关键的 downstream 真实指标在最关键的 ablation 上缺席。


Demos

文章嵌入了多段 demo 视频,展示长程操作任务,例如组装相机包装:

Video 2. Build a camera kit (top view):把清洁布放进盒子、折入卡纸托盘、从塑料袋中取出相机、放入盒中、合上盖子(含小翻盖)、最后丢弃塑料袋。模型不维护任何显式 subtask 概念,整个长程任务在单一 harmonic reasoning 流中完成。

其他展示(手机打包、相机包装侧视/POV、乐高组装、紧固件拼接、盒装打包等)参见原文。


关联工作

基于

  • PaLM-E:作者在开篇明确把 GEN-0 定位为”超越 vision-language pretraining 转移路径”的下一步。
  • Kaplan & McCandlish (2021), Scaling Laws for Neural Language Models:本文 scaling law 形式 直接借自 LLM scaling law 文献。
  • Hernandez et al. (2021), Scaling Laws for Transfer:pretraining → finetune scaling 的语境来源。

对比

  • π0 / π0.5:同一时代的 generalist VLA。GEN-0 在文中没有直接 benchmark 对比,但 Harmonic Reasoning 的设计明确针对其 dual-system / inference-time chunking 路径。
  • Figure Helix:作者点名”我们不需要 System1-System2 架构”。
  • π0 团队的 Real-Time Action Chunking Flow Policies (Black et al., 2025):作者点名”我们不需要 inference-time guidance”。
  • OpenVLA / Octo:作为开源 VLA 的对照,文中未提及,但显然是隐性对比对象。

方法相关

  • Imitation learning as f-divergence minimization (Ke et al., 2020):reverse KL 作为 mode-seeking metric 的理论根据。
  • Springer et al. (2025), Overtrained Language Models Are Harder to Fine-Tune:ossification 的 LLM 侧参考。
  • Moravec’s Paradox:作者用以解读”为什么 robotics 的 intelligence threshold 比 LLM 大两个数量级”。
  • 后续工作:GEN-1(2026-04,承接 GEN-0 走向 mastery)。

论文点评

Strengths

  1. 首次以工业规模数据 + 系统 size sweep 在 robotics 中报告 scaling laws——即使方法细节不公开,仅这一观察就有研究价值,是后续 community 必引的对照点。
  2. Ossification 这一现象在 robotics 中的首次报告有方法论意义:它说明在 high-data regime 下 robotics 的 model size “下限”远高于 LLM,对小规模 VLA 研究的 implications 是负面但重要的(“模型不够大就吸收不动”)。
  3. Reverse KL 区分 SFT-friendly vs RL-friendly 数据这一观察具有方法论 actionable 性,是少有的”data-centric ablation”产出可指导后续操作的 takeaway。
  4. Power-law 形式公开给后续研究留了 reproducibility 的接口——别人可以用自己的小规模数据验证拟合形式是否成立。

Weaknesses

  1. 零方法细节:架构(“decoder-only 多模态”以外)、token 化方案、Harmonic Reasoning 的具体训练 objective、loss、采样、连续时间机制——全部没说。“Harmonic Reasoning” 仍是 marketing term,不是可复现 method。
  2. 关键论点的 grounding 弱
    • 7B 相变只有 3 个 size 数据点支持。
    • Power-law 拟合用的是 prediction error 而非 task success rate;二者在 LLM 文献中也有显著 gap。
    • Table 1 ablation 没有真机 success rate 验证。
  3. Ossification 术语借用越界:作者自己在 footnote 8 承认与 LLM 文献定义不同,但仍沿用同一标签——容易在二手传播中被误读。
  4. Closed-source data + closed-source model:所有 claim 不可外部验证,这是一篇 corporate technical announcement 而非 paper。reader 必须降低 prior。
  5. 没有与同时期 open VLA(如 π0OpenVLAOctoπ0.5)做任何对比——这种 isolation 让”breakthrough” 的相对量级无法判断。

可信评估

Artifact 可获取性

  • 代码: 未开源
  • 模型权重: 未发布
  • 训练细节: 未披露(仅 10K cores、PB 级压缩等基础设施性描述)
  • 数据集: 私有(in-house,270K 小时)

Claim 可验证性

  • ⚠️ “7B 处出现 phase transition”:仅 3 个 size 数据点(1B/6B/7B),术语借用 LLM 文献存在歧义;行为层面观察,无 weight-level 诊断。
  • ⚠️ “power-law scaling for robotics”:metric 是 validation error 而非真机成功率;fit 在文中只展示一例(Clothes Handling)。
  • ⚠️ “99% 峰值成功率”:未指明任务、评估场景、试验次数和置信区间。
  • ⚠️ “data quality > volume”:Table 1 数值差极小(约 5%),缺乏真机 follow-up。
  • “a new era of embodied foundation models” / “breakthrough fundamental capabilities”:营销 framing,不是技术 claim。
  • “270K 小时数据规模 + 10K 小时/周”:可独立交叉验证(媒体已报道、视频展示数据采集流程),与公开 robotics 数据集的相对量级判断是 sound 的。

Notes

这篇把 robotics 是否存在 scaling laws 这个 vibe-level 判断推到了有可测形式的实证层面。即使方法不公开、claim 不能完全验证,关于 ossification 临界 size、pretrain → post-train 的 power-law、和 reverse-KL 区分 SFT/RL 友好数据的三个观察,都是后续做 data-centric VLA 研究、思考 model-size 选择时必须考虑的对照点。它不是 method paper,但改变了”我应该建多大的 VLA、收多少数据才有意义”的判断框架。

对我自己研究的 implications

  • 任何 ≤3B 的 VLA 实验都要警惕 ossification——尤其当数据 diverse 时,“训练越久越差”可能不是 bug 而是结构性问题。
  • 报告 VLA 方法时,应该把数据量与模型 size 的 trade-off 当作一阶变量而非 footnote。
  • Reverse-KL 作为 imitation 数据集 selection 的 metric 值得在小规模复现上试一下:如果 SFT-friendly vs RL-friendly 的二分真的成立,对于”该用 BC 还是 RL”的问题就有了 data-side 的判据。

追问 / 待查

  • GEN-1 (2026-04) 的发布是否给出了 GEN-0 没说的方法细节?
  • Harmonic Reasoning 与 streaming VLA 工作(如 StreamVLN)在思路上的异同?
  • 7B 相变的 follow-up 复现尝试:开源社区有没有人在自己更小的数据规模上看到过类似 ossification?

Rating

Metrics (as of 2026-04-24): citation=N/A (non-arxiv release), influential=N/A, velocity=N/A; HF upvotes=N/A; github=N/A (无代码仓库)

分数:3 - Foundation 理由:本笔记 Strengths 已列出三项社区级别 implication——首次在 robotics 报告 scaling laws、首次报告 ossification 临界 size、Reverse-KL 区分 SFT/RL 友好数据——都是后续 data-centric VLA 研究无法绕过的对照点;关联工作段明确写出 GEN-1 已承接该 agenda,方向连续性成立。不是 2-Frontier,因为它不是某个任务的 SOTA baseline,而是改变了”模型 size / 数据量”这一阶 trade-off 的判断框架;不降为 1-Archived,是因为即便 closed-source,它仍是 “robotics scaling laws” 这一议题的首要引用节点。2026-04 复核:因是 Generalist AI blog 而非 arXiv,s2 无 citation 追踪;无 HF/github 可核对社区采纳——但 GEN-1 (2026-04) 已在 vault 内作为 follow-up 出现,且 robotics scaling laws 议题在过去 5 个月里确实是后续 VLA data-centric 讨论的常引节点;Foundation 档的判断主要落在 “议题锚点” 而非 cite 数上,metric 缺失不影响判断。