Summary

GEN-1: Scaling Embodied Foundation Models to Mastery

  • 核心: Generalist AI 在 GEN-0 基础上继续 scaling(>50 万小时人类可穿戴交互数据,零 robot data 预训练),叠加 post-training/RL/Harmonic Reasoning 推理优化,自称在若干灵巧操作任务上达成 “mastery”——99% 成功率、~3x SOTA 速度、emergent improvisation
  • 方法: 大规模可穿戴人类交互数据预训练 + 每任务约 1h robot data fine-tune + 经验学习 (RL) + Harmonic Reasoning 推理 + 系统级工程(paged attention 实时推理、定制 kernel 等)
  • 结果: 6 任务平均成功率 GEN-1 99% vs GEN-0 64% vs from-scratch 19%;Box folding ~12s 较前代 SOTA(GEN-0 / π0 ~34s)快 2.8x;phone packing 15.5s 同样 ~2.8x;分布外场景中出现 bimanual regrasping、extrinsic dexterity 等 emergent recovery
  • Sources: website
  • Rating: 2 - Frontier(blog-only release,无 paper/code/权重,但 99%/~3x 的数字若属实代表了 wearable-data 预训练范式的阶段性跃迁,值得在 VLA / embodied FM 方向持续跟踪)

Key Takeaways:

  1. mastery = reliability + speed + improvisation: blog 把”mastery”明确拆成这三点,前两个有数字,improvisation 是定性观察。这个三元定义本身是 blog 的主推 framing,需要警惕营销修辞——它把”长尾 recovery 出现了”重新包装成了一个新评价维度。
  2. 99% with ~1h robot data: 6 个任务平均成功率从 from-scratch 19% → GEN-0 fine-tune 64% → GEN-1 fine-tune 99%。所有数据均来自 1 小时 robot data + 50 万小时人类可穿戴预训练。强调”零 robot data 预训练”是这条 data engine 路线的核心论点。
  3. ~3x speed breakthrough,且超过 demonstration: Box folding 12.1s vs 34s(π0 / GEN-0),phone packing 15.5s vs ~43s。归因为 (i) 经验学习 (RL) (ii) Harmonic Reasoning 推理 (iii) 可穿戴预训练数据天然包含人类高速完成任务的样本(teleop 数据则因 force feedback 缺失而偏慢)。声称模型可超过 demonstration speed 并实时适应物理变化。
  4. Emergent improvisation: 长尾事件中出现 bimanual in-hand regrasping、利用环境槽位做 extrinsic dexterity、对大变形物体异常构型的恢复——blog 称这些超出训练分布。但 blog 同时承认这种 emergent 行为既是优势也是 alignment liability(“应该不做什么”),暗示 deployment 时需要新的 alignment 方法。
  5. System,不是单纯 model: blog 自己强调 GEN-1 更像 system——含定制训练基础设施(petabyte 级物理交互数据 first-class)、paged attention for real-time inference、新硬件、新地理覆盖的数据采集。这意味着外部复现门槛极高,实际可访问性接近零(仅 Early Access Partners)。

Teaser. GEN-1 multi-task highlight reel.


1. 背景:从 GEN-0 到 GEN-1

GEN-0 五个月前发布,主要贡献是给 robotics 找到了 scaling laws——下游误差随预训练数据量呈幂律下降,并在 7B 参数附近观察到 ossification 相变。但 GEN-0 的绝对性能不够 commercial:典型成功率在 60-80% 区间,难以部署。

GEN-1 的叙事是”继续 scaling + 算法升级 → 突破 commercial threshold”。Blog 用 GPT-2 → GPT-3 的类比:GPT-2 验证了 scalable multitask learning,GPT-3 跨过商业可用阈值。GEN-1 想对应到 GPT-3 的位置。

❓ 这个类比的 framing 很 powerful,但要小心——GPT-3 是公开 API + 公开 paper + 大量独立验证。GEN-1 是一篇 blog + Early Access。同样的故事讲两次,举证强度差异巨大。

Data engine 的差异化:blog 反复强调 GEN-0/GEN-1 系列的预训练完全不依赖 robot data,而是用人类佩戴的低成本可穿戴设备采集物理活动数据。这一点和 teleop-heavy 的 π0 路线、以及大规模 sim2real 路线形成明显对比。规模上 50 万小时(vs GEN-0 的 27 万小时,~1.85x 增长)。

❓ 可穿戴设备具体形态、传感器组合、observation/action 空间如何对齐到机器人本体——blog 完全没说。“零 robot data 也能预训练 VLA” 是个非常强的 claim,但缺乏技术细节支撑。

2. 定义 Mastery

Blog 把 mastery 定义为三个维度的复合:

  • Reliability:长时间无干预下的任务成功率。Blog 特别指出 end-to-end 模型历来难达到工业自动化级别的可靠性,过去的高成功率往往依赖大量 teleop + 窄任务集 + 复杂工程。
  • Speed:不只是电机转速快,而是任务完成快。高速带来非 quasi-static 动力学:摩擦/惯性项放大、运动模糊、对感知和推理的实时性要求陡增。
  • Improvisation(physical commonsense):在分布外场景中创造性地恢复。Blog 引用 William James “intelligence = ability to reach the same goal by different means”。

这三者中 reliability 和 speed 容易测量,improvisation 才是 blog 想 sell 的真正卖点——前两个是工业机器人 60 年的老话题,靠 precision + 环境约束就能解决;improvisation 必须靠 intelligence。

❓ “Mastery” 这个术语有营销味道。把”成功率高 + 速度快 + 偶尔有 emergent recovery”重新包装成一个统一维度,但 (a) improvisation 没有量化指标,(b) 这个三元组并非新概念,传统 robotics 一直在追求 reliability+speed,新的只有 improvisation 这一项的来源(pretraining 而非 hand-crafted)。

3. 模型架构与训练

Blog 几乎没披露架构细节。能拼出来的只有:

  • Pre-training:50 万小时人类可穿戴物理交互数据,零 robot data。Blog 称”shifting the curve of compute efficiency of pretraining intelligence”,但没有给出新的 scaling law 曲线(GEN-0 给过类似的)。
  • Post-training:每个任务 ~1 小时 robot data fine-tune。同时承担两件事——适配新的 robot embodiment + 学习新任务。GEN-1 自称比 GEN-0 数据效率高 10x。
  • Learning from experience (RL):blog 称用于推升性能,特别是 speed。具体算法、reward、是否真机/sim 训练均未披露。
  • Multimodal human guidance:提到但无细节。
  • Harmonic ReasoningGEN-0 blog 中提出过——异步连续时间的感知/动作 token 交织。GEN-1 称其有”evolution”,但同样无细节。
  • Inference 工程:custom kernel、新型 paged attention 用于实时推理。

❓ 整个 § Looking Ahead 一段(“我们重新设计了分布式训练基础设施支持 PB 级数据,花了几个月调训练稳定性,写自定义 kernel,发明新型 paged attention 实现实时推理,加固控制使其更平滑精确,设计新硬件并向新地理运送了数千个机器人手”)——这段读起来像 engineering shopping list,每一项都没有具体技术内容。但作为 system 而非 model 的论证,它确实有效说明了”不是几行代码能复现的”。

Equation:scaling-related 的公式 blog 中无。GEN-0 不同(后者给了 ),GEN-1 是纯定性叙述。

4. Capabilities

4.1 Reliability

Blog 展示 6 个任务的长时序自主运行视频。每个任务展示 1x speed 单次执行 + 50x sped-up 长时序连续执行。

Video 1. Kitting auto parts —— 1x speed, fully autonomous.

Video 2. Kitting auto parts —— 1 hour without intervention (50x).

Video 3. T-shirt folding —— 1x speed, fully autonomous.

Video 4. T-shirt folding —— 86 times in a row without intervention (50x).

Video 5. Servicing robot vacuum —— 1x speed, fully autonomous.

Video 6. Servicing robot vacuum —— 200+ times in a row without intervention (50x).

Vacuum 任务的关键数字(blog Figure 1):GEN-1 99% vs GEN-0 50% vs from-scratch 2%。

Video 7. Packing blocks —— 1,800 次连续自主运行 (50x).

Video 8. Folding boxes —— 200 次连续自主运行.

Box folding 关键数字(blog Figure 2):GEN-1 99% vs GEN-0 81% vs from-scratch 13%。

Video 9. Packing phones —— 100 次连续自主运行.

Phone packing 关键数字(blog Figure 3):GEN-1 99% vs GEN-0 62% vs from-scratch 42%。

Table 1. 三种训练配置在 6 个任务上的平均成功率(blog 文字汇总)

ConfigurationAvg Success Rate
From-scratch (no pretraining)19%
GEN-0 fine-tuned64%
GEN-1 fine-tuned99%

Blog 在 phone packing 一节加了重要免责声明:对比基线是”2025 年 11 月版本的 GEN-0”,而非 2025 年 3 月 GTC 上展示的”含 11 月以后 advances 的 GEN-0”。换言之,对比基线被刻意冻结在更弱的版本上。

❓ 三个数字(19% / 64% / 99%)是 6 任务平均还是分别在三种配置下的平均?文字说”average 19%/64%/99%“是同一组任务,所以是 apples-to-apples。但每个任务的具体数字 blog 只给了 vacuum/box/phone 三个;剩余 3 个任务(kitting、t-shirt、blocks)的成功率分布未披露。

4.2 Speed

Video 10. Phone packing speed comparison —— GEN-0 baseline.

Video 11. Phone packing speed comparison —— GEN-1 (~2.8x faster, 15.5s).

Video 12. Box folding speed comparison —— GEN-0 baseline (~34s).

Video 13. Box folding speed comparison —— GEN-1 (12.1s, 2.8x faster).

Speed 测量协议:Blog 明确说 box folding 时间只算”从触碰盒子开始折到折叠完成”——这个定义把 reach/return 等运动排除在外,对比的是核心动作段。π0GEN-0 在同款盒子上都约 34 秒,π*0.6 在不同但相似的盒子上类似时长。GEN-1 ~12 秒,2.8x。

速度提升的归因(blog 给的):

  1. 经验学习 (RL) 直接优化速度
  2. Harmonic Reasoning 提升推理频率
  3. 可穿戴预训练数据集中人类天然以高速完成任务,与 teleop(受 force feedback 缺失/延迟/视野限制影响必然偏慢)形成对比

❓ 第 (3) 点的论证逻辑值得保留:teleop data 的速度上限不是机器人的,而是 teleoperator 远程操作的延迟上限。这个 framing 对解释为什么纯人类数据预训练能产生超越 teleop 速度的策略,是有道理的——但 blog 没有 ablation 验证哪一项贡献最大。

4.3 Improvisational Intelligence

Video 14. Emergent improvisation reel.

Blog 描述的代表性 emergent 行为:

  • Long-horizon kitting:washer 被外力撞偏导致抓握失稳时,模型可以选择 (a) 放回去重新抓 (b) 部分塞入插槽利用 extrinsic dexterity 重新调整 (c) 用另一只手做 bimanual in-hand regrasping。
  • 大变形物体:在异常 configuration 下能找到恢复方式。

Blog 强调这些是分布外行为,没有显式被训练过。

❓ Blog 没有量化”improvisation rate”——多大比例的长尾事件能被恢复?没有 baseline 对比。Improvisation 是 highlight reel 而非 metric。这是这个维度的根本测量困难。

❓ Improvisation 也带来 alignment 问题——见 §6 Alignment。这个一致性问题是一个尚未解决的真问题,不是营销话术。

5. Limitations(blog 自陈)

  • 不是所有任务都能到 99%+。
  • 某些场景需要更高的成功率/速度才能商用。
  • 期待下一代模型扩大可 master 任务集。

❓ Blog 没列出 failure case 视频,这是相对于 success demo 的不平衡。一篇真正诚实的 release 会展示典型 failure mode,让读者校准预期。

6. Rethinking Alignment for Embodied Intelligence

Blog 的 alignment 段落实际上是这篇 blog 中智识含量较高的一段:emergent 行为(摇袋让物体落位、把误放物品重新组织、伸手接坠物)是物理动作,有真实后果。“成功”在 robotics 中并非通用定义,而是 task-specific、workflow-specific、用户定义的。重要的不只是机器人应该做什么,更是不应该做什么

Blog 暗示需要新的 alignment 方法——可能借鉴 Inference-Time Policy Steering through Human Interactions (ITPS, Wang et al., 2025) 这类基于推理时人类介入的 steering 框架。

❓ 这一段的 framing 比”mastery”那一节扎实得多。embodied alignment 确实是一个 open problem——VLA 越强,“emergent recovery 失误造成物理损害”的风险越高。这里不是修辞,是真实的研究方向。

7. Looking Ahead

Blog 末段总结了工程投入:

  • 重新设计分布式训练基础设施支持 PB 级物理交互数据 first-class
  • 数月时间提升训练稳定性
  • 自定义 kernel
  • 新型 paged attention 用于实时推理
  • post-training 技术(理论 RL 基础 + 多模态人类引导)
  • 控制平滑性与精度加固
  • 设计新硬件,跨地理运送数千个机器人手

❓ 这一段的功能本质上是 moat-building——告诉读者”这不是几个学者能复现的工作”。它同时也无意中暴露了:blog 中绝大多数核心 claim(数据规模、基础设施、新型 attention、定制 RL)都属于”外部不可验证”类别。


关联工作

基于

  • GEN-0:直接前作,同一团队,同一数据 engine 路线(可穿戴人类数据预训练 + 少量 robot data fine-tune)。GEN-1 在数据规模(27 万 → 50 万小时)、算法(RL + Harmonic Reasoning evolution)、工程(paged attention 实时推理)三方面延续并升级。
  • Harmonic Reasoning (GEN-0 blog 中提出):异步感知/动作 token 交织的推理范式,GEN-1 称有 evolution 但无细节。

对比

  • π0:teleop + flow matching 路线的代表,box folding ~34s 是 GEN-1 速度对比的主要基线。
  • π*0.6:物理智能公司的更新模型,box folding 时长相似(不同盒子,约 34s)。
  • π0.5:物理智能公司同系列,blog 未直接对比但属于同一对照组。

方法相关


论文点评

Strengths

  1. 数字差距足够大:99% vs 64% vs 19% 不是 +0.3% SOTA,是阶段跃迁。如果 blog 报告的协议(apples-to-apples vs 2025-11 GEN-0、6 个任务平均、~1h robot data)属实,这是一个真实的 capability shift。
  2. 零 robot-data 预训练路线的进一步验证:从 GEN-0 到 GEN-1,可穿戴人类数据 → 预训练 → 少量 robot data fine-tune 的范式连续两次产出实质进展。这条路线的核心假设(人类物理交互数据足够覆盖 robot 操作所需的 prior)值得严肃看待。
  3. 速度突破的归因结构合理:把速度归因为 RL + Harmonic Reasoning + 数据偏置(teleop 慢 vs 人类天然快),三项归因都有逻辑支撑,且第三项是 π0 等 teleop-heavy 路线天花板的真实解释。
  4. alignment 段落有真问题意识:emergent improvisation 既是 capability 也是 alignment liability。这个张力在大多数 VLA blog 中被忽略,GEN-1 明确点出来。

Weaknesses

  1. Sources 严重不足:纯 blog,没有 paper、没有 github、没有 model card、没有 evaluation harness 开源。所有数字均不可独立复现。Early Access Partners only 等同于黑盒。
  2. 基线选择的策略性披露:phone packing 一节明确承认对比的是”2025-11 GEN-0”,而非 2025-03 GTC 上更强的 GEN-0 变体。这是对比基线被有意冻结在弱版本,符合 blog 营销但不符合科学评估惯例。
  3. 6 任务中只披露 3 任务的细分数字:vacuum (99%/50%/2%)、box (99%/81%/13%)、phone (99%/62%/42%)。Kitting、t-shirt、blocks 三个任务的成功率分布未给。“average 99%” 可能掩盖了任务间方差。
  4. Improvisation 无量化指标:highlight reel 而非 metric。emergent recovery 的成功率/失败率/出现频率均未给。
  5. 算法细节几乎为零:架构、模型规模、Harmonic Reasoning 实现、RL 算法、reward 设计、可穿戴数据采集协议——全部缺失。“system not model” 这个 framing 实质上免除了 blog 披露技术细节的义务。
  6. “Mastery” 的术语化包装:把 reliability+speed+improvisation 重新包装为新评价维度,但前两者是工业自动化老话题。这种 narrative engineering 的目的是让 GEN-1 看起来开辟了一个新评价空间,便于声称”first to cross”。
  7. 缺少 failure case:与所有 success demo 形成对比的反面证据缺失。

可信评估

Artifact 可获取性

  • 代码: 未开源
  • 模型权重: 未公开发布。仅 Early Access Partners 可访问(联系 partnerships@generalistai.com
  • 训练细节: 未披露——架构未说明、规模未说明、超参未说明、数据配比未说明、训练步数未说明
  • 数据集: 私有(50 万小时可穿戴交互数据)

Claim 可验证性

  • ⚠️ 6 任务平均成功率 99% (vs GEN-0 64%, vs from-scratch 19%):grounding 仅有 blog 提供的视频和 vacuum/box/phone 三个 figure;其余 3 任务的细分数字缺失;评估协议(试验次数、成功定义、是否人为干预 reset)未披露
  • ⚠️ Box folding 12s vs prior SOTA 34s (2.8x):grounding 是视频对比和 π0 公开视频时长;速度测量协议(“只算触碰到完成”)合理但 narrow,可能排除了 reach/return;与不同盒子的 π*0.6 对比的可比性存疑
  • ⚠️ Phone packing 15.5s, 2.8x faster than GEN-0:仅 blog 视频证据;定义未明
  • ⚠️ 每任务仅需 ~1h robot data:blog 的核心 sample-efficiency 主张;无外部验证途径
  • ⚠️ Emergent improvisation (bimanual regrasping, extrinsic dexterity):highlight reel 形式,无量化指标,无频率/比例数据,分布外的判定无明确边界
  • ⚠️ GEN-1 比 GEN-0 数据效率高 10x:仅文字陈述,无 ablation 曲线
  • “first general-purpose AI model that crosses … mastery of simple physical tasks”:营销话术,“first” 和 “mastery” 都是 blog 自己定义的术语
  • “unlocks commercial viability across a broad range of applications”:商业可用性 claim,无 deployment 案例支撑

Notes

Blog 的一贯风格:和 GEN-0 一样,high-level framing 强而技术细节空。Generalist AI 的 blog 系列本质上是 “scaling exists in robotics + we have the data + trust us”。这种范式对 reader 的认知负担是:

  1. 接受 “数据规模决定一切” 这个核心假设
  2. 接受所有数字都来自内部评估
  3. 没有可复现路径

关注点

  • 50 万小时人类可穿戴数据的具体形态——是否会公开任何 subset?
  • Harmonic Reasoning 的真实技术内涵——目前两篇 blog 都只给概念,未给定义
  • Embodied alignment 是真问题,GEN-1 至少把它点出来了。值得跟踪后续工作

对照检查清单:等待第三方独立评估(如学术 lab 或 Early Access Partner 公开 benchmark),关注:

  1. 同任务在新硬件/新场景下的 transfer 成功率
  2. Failure case 分布
  3. ~1h robot data 的鲁棒性(同任务多次重新 fine-tune 方差)

π0 路线的对照:teleop-heavy vs 可穿戴-heavy 是 VLA 数据 engine 的两条路线之争。GEN-1 的速度突破(超过 teleop demonstration)是对前者天花板的有力反例,但 teleop 仍然在精细控制和 instruction grounding 上占优。这条路线之争值得在 DomainMap 里跟踪。

Rating

Metrics (as of 2026-04-24): citation=N/A (non-arxiv release), influential=N/A, velocity=N/A; HF upvotes=N/A; github=N/A (无代码仓库)

分数:2 - Frontier 理由:按 field-centric rubric,GEN-1 代表 embodied foundation model 方向上 “wearable human data pretraining + minimal robot fine-tune” 路线的最新前沿信号,99% 成功率 + ~3x 速度 + emergent improvisation 是值得被列入 VLA / robot manipulation baseline 对照表的阶段性跃迁;但它还不是 Foundation——无 paper / 无 code / 无 weights、所有数字均来自内部评估、基线选择有策略性披露(见 Weaknesses §1–2),作为 blog-only release 其历史地位仍待第三方验证,因此不升 3;同时它也未降至 Archived:speed > demonstration 的 framing 与 alignment 段落都是真问题,[[2410-Pi0|π0]] 路线对比(见关联工作)仍需引用其作为反例。