Summary
GEN-1: Scaling Embodied Foundation Models to Mastery
- 核心: Generalist AI 在 GEN-0 基础上继续 scaling(>50 万小时人类可穿戴交互数据,零 robot data 预训练),叠加 post-training/RL/Harmonic Reasoning 推理优化,自称在若干灵巧操作任务上达成 “mastery”——99% 成功率、~3x SOTA 速度、emergent improvisation
- 方法: 大规模可穿戴人类交互数据预训练 + 每任务约 1h robot data fine-tune + 经验学习 (RL) + Harmonic Reasoning 推理 + 系统级工程(paged attention 实时推理、定制 kernel 等)
- 结果: 6 任务平均成功率 GEN-1 99% vs GEN-0 64% vs from-scratch 19%;Box folding ~12s 较前代 SOTA(GEN-0 / π0 ~34s)快 2.8x;phone packing 15.5s 同样 ~2.8x;分布外场景中出现 bimanual regrasping、extrinsic dexterity 等 emergent recovery
- Sources: website
- Rating: 2 - Frontier(blog-only release,无 paper/code/权重,但 99%/~3x 的数字若属实代表了 wearable-data 预训练范式的阶段性跃迁,值得在 VLA / embodied FM 方向持续跟踪)
Key Takeaways:
- mastery = reliability + speed + improvisation: blog 把”mastery”明确拆成这三点,前两个有数字,improvisation 是定性观察。这个三元定义本身是 blog 的主推 framing,需要警惕营销修辞——它把”长尾 recovery 出现了”重新包装成了一个新评价维度。
- 99% with ~1h robot data: 6 个任务平均成功率从 from-scratch 19% → GEN-0 fine-tune 64% → GEN-1 fine-tune 99%。所有数据均来自 1 小时 robot data + 50 万小时人类可穿戴预训练。强调”零 robot data 预训练”是这条 data engine 路线的核心论点。
- ~3x speed breakthrough,且超过 demonstration: Box folding 12.1s vs 34s(π0 / GEN-0),phone packing 15.5s vs ~43s。归因为 (i) 经验学习 (RL) (ii) Harmonic Reasoning 推理 (iii) 可穿戴预训练数据天然包含人类高速完成任务的样本(teleop 数据则因 force feedback 缺失而偏慢)。声称模型可超过 demonstration speed 并实时适应物理变化。
- Emergent improvisation: 长尾事件中出现 bimanual in-hand regrasping、利用环境槽位做 extrinsic dexterity、对大变形物体异常构型的恢复——blog 称这些超出训练分布。但 blog 同时承认这种 emergent 行为既是优势也是 alignment liability(“应该不做什么”),暗示 deployment 时需要新的 alignment 方法。
- System,不是单纯 model: blog 自己强调 GEN-1 更像 system——含定制训练基础设施(petabyte 级物理交互数据 first-class)、paged attention for real-time inference、新硬件、新地理覆盖的数据采集。这意味着外部复现门槛极高,实际可访问性接近零(仅 Early Access Partners)。
Teaser. GEN-1 multi-task highlight reel.
1. 背景:从 GEN-0 到 GEN-1
GEN-0 五个月前发布,主要贡献是给 robotics 找到了 scaling laws——下游误差随预训练数据量呈幂律下降,并在 7B 参数附近观察到 ossification 相变。但 GEN-0 的绝对性能不够 commercial:典型成功率在 60-80% 区间,难以部署。
GEN-1 的叙事是”继续 scaling + 算法升级 → 突破 commercial threshold”。Blog 用 GPT-2 → GPT-3 的类比:GPT-2 验证了 scalable multitask learning,GPT-3 跨过商业可用阈值。GEN-1 想对应到 GPT-3 的位置。
❓ 这个类比的 framing 很 powerful,但要小心——GPT-3 是公开 API + 公开 paper + 大量独立验证。GEN-1 是一篇 blog + Early Access。同样的故事讲两次,举证强度差异巨大。
Data engine 的差异化:blog 反复强调 GEN-0/GEN-1 系列的预训练完全不依赖 robot data,而是用人类佩戴的低成本可穿戴设备采集物理活动数据。这一点和 teleop-heavy 的 π0 路线、以及大规模 sim2real 路线形成明显对比。规模上 50 万小时(vs GEN-0 的 27 万小时,~1.85x 增长)。
❓ 可穿戴设备具体形态、传感器组合、observation/action 空间如何对齐到机器人本体——blog 完全没说。“零 robot data 也能预训练 VLA” 是个非常强的 claim,但缺乏技术细节支撑。
2. 定义 Mastery
Blog 把 mastery 定义为三个维度的复合:
- Reliability:长时间无干预下的任务成功率。Blog 特别指出 end-to-end 模型历来难达到工业自动化级别的可靠性,过去的高成功率往往依赖大量 teleop + 窄任务集 + 复杂工程。
- Speed:不只是电机转速快,而是任务完成快。高速带来非 quasi-static 动力学:摩擦/惯性项放大、运动模糊、对感知和推理的实时性要求陡增。
- Improvisation(physical commonsense):在分布外场景中创造性地恢复。Blog 引用 William James “intelligence = ability to reach the same goal by different means”。
这三者中 reliability 和 speed 容易测量,improvisation 才是 blog 想 sell 的真正卖点——前两个是工业机器人 60 年的老话题,靠 precision + 环境约束就能解决;improvisation 必须靠 intelligence。
❓ “Mastery” 这个术语有营销味道。把”成功率高 + 速度快 + 偶尔有 emergent recovery”重新包装成一个统一维度,但 (a) improvisation 没有量化指标,(b) 这个三元组并非新概念,传统 robotics 一直在追求 reliability+speed,新的只有 improvisation 这一项的来源(pretraining 而非 hand-crafted)。
3. 模型架构与训练
Blog 几乎没披露架构细节。能拼出来的只有:
- Pre-training:50 万小时人类可穿戴物理交互数据,零 robot data。Blog 称”shifting the curve of compute efficiency of pretraining intelligence”,但没有给出新的 scaling law 曲线(GEN-0 给过类似的)。
- Post-training:每个任务 ~1 小时 robot data fine-tune。同时承担两件事——适配新的 robot embodiment + 学习新任务。GEN-1 自称比 GEN-0 数据效率高 10x。
- Learning from experience (RL):blog 称用于推升性能,特别是 speed。具体算法、reward、是否真机/sim 训练均未披露。
- Multimodal human guidance:提到但无细节。
- Harmonic Reasoning:GEN-0 blog 中提出过——异步连续时间的感知/动作 token 交织。GEN-1 称其有”evolution”,但同样无细节。
- Inference 工程:custom kernel、新型 paged attention 用于实时推理。
❓ 整个 § Looking Ahead 一段(“我们重新设计了分布式训练基础设施支持 PB 级数据,花了几个月调训练稳定性,写自定义 kernel,发明新型 paged attention 实现实时推理,加固控制使其更平滑精确,设计新硬件并向新地理运送了数千个机器人手”)——这段读起来像 engineering shopping list,每一项都没有具体技术内容。但作为 system 而非 model 的论证,它确实有效说明了”不是几行代码能复现的”。
Equation:scaling-related 的公式 blog 中无。 和 GEN-0 不同(后者给了 ),GEN-1 是纯定性叙述。
4. Capabilities
4.1 Reliability
Blog 展示 6 个任务的长时序自主运行视频。每个任务展示 1x speed 单次执行 + 50x sped-up 长时序连续执行。
Video 1. Kitting auto parts —— 1x speed, fully autonomous.
Video 2. Kitting auto parts —— 1 hour without intervention (50x).
Video 3. T-shirt folding —— 1x speed, fully autonomous.
Video 4. T-shirt folding —— 86 times in a row without intervention (50x).
Video 5. Servicing robot vacuum —— 1x speed, fully autonomous.
Video 6. Servicing robot vacuum —— 200+ times in a row without intervention (50x).
Vacuum 任务的关键数字(blog Figure 1):GEN-1 99% vs GEN-0 50% vs from-scratch 2%。
Video 7. Packing blocks —— 1,800 次连续自主运行 (50x).
Video 8. Folding boxes —— 200 次连续自主运行.
Box folding 关键数字(blog Figure 2):GEN-1 99% vs GEN-0 81% vs from-scratch 13%。
Video 9. Packing phones —— 100 次连续自主运行.
Phone packing 关键数字(blog Figure 3):GEN-1 99% vs GEN-0 62% vs from-scratch 42%。
Table 1. 三种训练配置在 6 个任务上的平均成功率(blog 文字汇总)
| Configuration | Avg Success Rate |
|---|---|
| From-scratch (no pretraining) | 19% |
| GEN-0 fine-tuned | 64% |
| GEN-1 fine-tuned | 99% |
Blog 在 phone packing 一节加了重要免责声明:对比基线是”2025 年 11 月版本的 GEN-0”,而非 2025 年 3 月 GTC 上展示的”含 11 月以后 advances 的 GEN-0”。换言之,对比基线被刻意冻结在更弱的版本上。
❓ 三个数字(19% / 64% / 99%)是 6 任务平均还是分别在三种配置下的平均?文字说”average 19%/64%/99%“是同一组任务,所以是 apples-to-apples。但每个任务的具体数字 blog 只给了 vacuum/box/phone 三个;剩余 3 个任务(kitting、t-shirt、blocks)的成功率分布未披露。
4.2 Speed
Video 10. Phone packing speed comparison —— GEN-0 baseline.
Video 11. Phone packing speed comparison —— GEN-1 (~2.8x faster, 15.5s).
Video 12. Box folding speed comparison —— GEN-0 baseline (~34s).
Video 13. Box folding speed comparison —— GEN-1 (12.1s, 2.8x faster).
Speed 测量协议:Blog 明确说 box folding 时间只算”从触碰盒子开始折到折叠完成”——这个定义把 reach/return 等运动排除在外,对比的是核心动作段。π0 和 GEN-0 在同款盒子上都约 34 秒,π*0.6 在不同但相似的盒子上类似时长。GEN-1 ~12 秒,2.8x。
速度提升的归因(blog 给的):
- 经验学习 (RL) 直接优化速度
- Harmonic Reasoning 提升推理频率
- 可穿戴预训练数据集中人类天然以高速完成任务,与 teleop(受 force feedback 缺失/延迟/视野限制影响必然偏慢)形成对比
❓ 第 (3) 点的论证逻辑值得保留:teleop data 的速度上限不是机器人的,而是 teleoperator 远程操作的延迟上限。这个 framing 对解释为什么纯人类数据预训练能产生超越 teleop 速度的策略,是有道理的——但 blog 没有 ablation 验证哪一项贡献最大。
4.3 Improvisational Intelligence
Video 14. Emergent improvisation reel.
Blog 描述的代表性 emergent 行为:
- Long-horizon kitting:washer 被外力撞偏导致抓握失稳时,模型可以选择 (a) 放回去重新抓 (b) 部分塞入插槽利用 extrinsic dexterity 重新调整 (c) 用另一只手做 bimanual in-hand regrasping。
- 大变形物体:在异常 configuration 下能找到恢复方式。
Blog 强调这些是分布外行为,没有显式被训练过。
❓ Blog 没有量化”improvisation rate”——多大比例的长尾事件能被恢复?没有 baseline 对比。Improvisation 是 highlight reel 而非 metric。这是这个维度的根本测量困难。
❓ Improvisation 也带来 alignment 问题——见 §6 Alignment。这个一致性问题是一个尚未解决的真问题,不是营销话术。
5. Limitations(blog 自陈)
- 不是所有任务都能到 99%+。
- 某些场景需要更高的成功率/速度才能商用。
- 期待下一代模型扩大可 master 任务集。
❓ Blog 没列出 failure case 视频,这是相对于 success demo 的不平衡。一篇真正诚实的 release 会展示典型 failure mode,让读者校准预期。
6. Rethinking Alignment for Embodied Intelligence
Blog 的 alignment 段落实际上是这篇 blog 中智识含量较高的一段:emergent 行为(摇袋让物体落位、把误放物品重新组织、伸手接坠物)是物理动作,有真实后果。“成功”在 robotics 中并非通用定义,而是 task-specific、workflow-specific、用户定义的。重要的不只是机器人应该做什么,更是不应该做什么。
Blog 暗示需要新的 alignment 方法——可能借鉴 Inference-Time Policy Steering through Human Interactions (ITPS, Wang et al., 2025) 这类基于推理时人类介入的 steering 框架。
❓ 这一段的 framing 比”mastery”那一节扎实得多。embodied alignment 确实是一个 open problem——VLA 越强,“emergent recovery 失误造成物理损害”的风险越高。这里不是修辞,是真实的研究方向。
7. Looking Ahead
Blog 末段总结了工程投入:
- 重新设计分布式训练基础设施支持 PB 级物理交互数据 first-class
- 数月时间提升训练稳定性
- 自定义 kernel
- 新型 paged attention 用于实时推理
- post-training 技术(理论 RL 基础 + 多模态人类引导)
- 控制平滑性与精度加固
- 设计新硬件,跨地理运送数千个机器人手
❓ 这一段的功能本质上是 moat-building——告诉读者”这不是几个学者能复现的工作”。它同时也无意中暴露了:blog 中绝大多数核心 claim(数据规模、基础设施、新型 attention、定制 RL)都属于”外部不可验证”类别。
关联工作
基于
- GEN-0:直接前作,同一团队,同一数据 engine 路线(可穿戴人类数据预训练 + 少量 robot data fine-tune)。GEN-1 在数据规模(27 万 → 50 万小时)、算法(RL + Harmonic Reasoning evolution)、工程(paged attention 实时推理)三方面延续并升级。
- Harmonic Reasoning (GEN-0 blog 中提出):异步感知/动作 token 交织的推理范式,GEN-1 称有 evolution 但无细节。
对比
- π0:teleop + flow matching 路线的代表,box folding ~34s 是 GEN-1 速度对比的主要基线。
- π*0.6:物理智能公司的更新模型,box folding 时长相似(不同盒子,约 34s)。
- π0.5:物理智能公司同系列,blog 未直接对比但属于同一对照组。
方法相关
- PaLM-E / RT-2:第一波 embodied foundation model,GEN-1 自陈是其延续与重新设计。
- Video Language Planning (Du et al., 2023):blog 在 world model 类工作中引用。
- Inference-Time Policy Steering through Human Interactions (Wang et al., 2025):alignment 段落引用,作为 user-defined success 的 grounding。
- GPT-2 / GPT-3:blog 反复使用的类比锚点——GEN-0 ↔ GPT-2、GEN-1 ↔ GPT-3。
- Kaplan & McCandlish 2020 scaling laws:scaling law 论证的理论锚点。
论文点评
Strengths
- 数字差距足够大:99% vs 64% vs 19% 不是 +0.3% SOTA,是阶段跃迁。如果 blog 报告的协议(apples-to-apples vs 2025-11 GEN-0、6 个任务平均、~1h robot data)属实,这是一个真实的 capability shift。
- 零 robot-data 预训练路线的进一步验证:从 GEN-0 到 GEN-1,可穿戴人类数据 → 预训练 → 少量 robot data fine-tune 的范式连续两次产出实质进展。这条路线的核心假设(人类物理交互数据足够覆盖 robot 操作所需的 prior)值得严肃看待。
- 速度突破的归因结构合理:把速度归因为 RL + Harmonic Reasoning + 数据偏置(teleop 慢 vs 人类天然快),三项归因都有逻辑支撑,且第三项是 π0 等 teleop-heavy 路线天花板的真实解释。
- alignment 段落有真问题意识:emergent improvisation 既是 capability 也是 alignment liability。这个张力在大多数 VLA blog 中被忽略,GEN-1 明确点出来。
Weaknesses
- Sources 严重不足:纯 blog,没有 paper、没有 github、没有 model card、没有 evaluation harness 开源。所有数字均不可独立复现。Early Access Partners only 等同于黑盒。
- 基线选择的策略性披露:phone packing 一节明确承认对比的是”2025-11 GEN-0”,而非 2025-03 GTC 上更强的 GEN-0 变体。这是对比基线被有意冻结在弱版本,符合 blog 营销但不符合科学评估惯例。
- 6 任务中只披露 3 任务的细分数字:vacuum (99%/50%/2%)、box (99%/81%/13%)、phone (99%/62%/42%)。Kitting、t-shirt、blocks 三个任务的成功率分布未给。“average 99%” 可能掩盖了任务间方差。
- Improvisation 无量化指标:highlight reel 而非 metric。emergent recovery 的成功率/失败率/出现频率均未给。
- 算法细节几乎为零:架构、模型规模、Harmonic Reasoning 实现、RL 算法、reward 设计、可穿戴数据采集协议——全部缺失。“system not model” 这个 framing 实质上免除了 blog 披露技术细节的义务。
- “Mastery” 的术语化包装:把 reliability+speed+improvisation 重新包装为新评价维度,但前两者是工业自动化老话题。这种 narrative engineering 的目的是让 GEN-1 看起来开辟了一个新评价空间,便于声称”first to cross”。
- 缺少 failure case:与所有 success demo 形成对比的反面证据缺失。
可信评估
Artifact 可获取性
- 代码: 未开源
- 模型权重: 未公开发布。仅 Early Access Partners 可访问(联系 partnerships@generalistai.com)
- 训练细节: 未披露——架构未说明、规模未说明、超参未说明、数据配比未说明、训练步数未说明
- 数据集: 私有(50 万小时可穿戴交互数据)
Claim 可验证性
- ⚠️ 6 任务平均成功率 99% (vs GEN-0 64%, vs from-scratch 19%):grounding 仅有 blog 提供的视频和 vacuum/box/phone 三个 figure;其余 3 任务的细分数字缺失;评估协议(试验次数、成功定义、是否人为干预 reset)未披露
- ⚠️ Box folding 12s vs prior SOTA 34s (2.8x):grounding 是视频对比和 π0 公开视频时长;速度测量协议(“只算触碰到完成”)合理但 narrow,可能排除了 reach/return;与不同盒子的 π*0.6 对比的可比性存疑
- ⚠️ Phone packing 15.5s, 2.8x faster than GEN-0:仅 blog 视频证据;定义未明
- ⚠️ 每任务仅需 ~1h robot data:blog 的核心 sample-efficiency 主张;无外部验证途径
- ⚠️ Emergent improvisation (bimanual regrasping, extrinsic dexterity):highlight reel 形式,无量化指标,无频率/比例数据,分布外的判定无明确边界
- ⚠️ GEN-1 比 GEN-0 数据效率高 10x:仅文字陈述,无 ablation 曲线
- ❌ “first general-purpose AI model that crosses … mastery of simple physical tasks”:营销话术,“first” 和 “mastery” 都是 blog 自己定义的术语
- ❌ “unlocks commercial viability across a broad range of applications”:商业可用性 claim,无 deployment 案例支撑
Notes
Blog 的一贯风格:和 GEN-0 一样,high-level framing 强而技术细节空。Generalist AI 的 blog 系列本质上是 “scaling exists in robotics + we have the data + trust us”。这种范式对 reader 的认知负担是:
- 接受 “数据规模决定一切” 这个核心假设
- 接受所有数字都来自内部评估
- 没有可复现路径
关注点:
- 50 万小时人类可穿戴数据的具体形态——是否会公开任何 subset?
- Harmonic Reasoning 的真实技术内涵——目前两篇 blog 都只给概念,未给定义
- Embodied alignment 是真问题,GEN-1 至少把它点出来了。值得跟踪后续工作
对照检查清单:等待第三方独立评估(如学术 lab 或 Early Access Partner 公开 benchmark),关注:
- 同任务在新硬件/新场景下的 transfer 成功率
- Failure case 分布
- ~1h robot data 的鲁棒性(同任务多次重新 fine-tune 方差)
与 π0 路线的对照:teleop-heavy vs 可穿戴-heavy 是 VLA 数据 engine 的两条路线之争。GEN-1 的速度突破(超过 teleop demonstration)是对前者天花板的有力反例,但 teleop 仍然在精细控制和 instruction grounding 上占优。这条路线之争值得在 DomainMap 里跟踪。
Rating
Metrics (as of 2026-04-24): citation=N/A (non-arxiv release), influential=N/A, velocity=N/A; HF upvotes=N/A; github=N/A (无代码仓库)
分数:2 - Frontier
理由:按 field-centric rubric,GEN-1 代表 embodied foundation model 方向上 “wearable human data pretraining + minimal robot fine-tune” 路线的最新前沿信号,99% 成功率 + ~3x 速度 + emergent improvisation 是值得被列入 VLA / robot manipulation baseline 对照表的阶段性跃迁;但它还不是 Foundation——无 paper / 无 code / 无 weights、所有数字均来自内部评估、基线选择有策略性披露(见 Weaknesses §1–2),作为 blog-only release 其历史地位仍待第三方验证,因此不升 3;同时它也未降至 Archived:speed > demonstration 的 framing 与 alignment 段落都是真问题,[[2410-Pi0|π0]] 路线对比(见关联工作)仍需引用其作为反例。