GEN-1: Scaling Embodied Foundation Models to Mastery

Summary

GEN-1: Scaling Embodied Foundation Models to Mastery

核心: Generalist AI 在 GEN-0 基础上继续 scaling（>50 万小时人类可穿戴交互数据，零 robot data 预训练），叠加 post-training/RL/Harmonic Reasoning 推理优化，自称在若干灵巧操作任务上达成 “mastery”——99% 成功率、~3x SOTA 速度、emergent improvisation

方法: 大规模可穿戴人类交互数据预训练 + 每任务约 1h robot data fine-tune + 经验学习 (RL) + Harmonic Reasoning 推理 + 系统级工程（paged attention 实时推理、定制 kernel 等）

结果: 6 任务平均成功率 GEN-1 99% vs GEN-0 64% vs from-scratch 19%；Box folding ~12s 较前代 SOTA（GEN-0 / π0 ~34s）快 2.8x；phone packing 15.5s 同样 ~2.8x；分布外场景中出现 bimanual regrasping、extrinsic dexterity 等 emergent recovery

Sources: website

Rating: 2 - Frontier（blog-only release，无 paper/code/权重，但 99%/~3x 的数字若属实代表了 wearable-data 预训练范式的阶段性跃迁，值得在 VLA / embodied FM 方向持续跟踪）

Key Takeaways:

mastery = reliability + speed + improvisation: blog 把”mastery”明确拆成这三点，前两个有数字，improvisation 是定性观察。这个三元定义本身是 blog 的主推 framing，需要警惕营销修辞——它把”长尾 recovery 出现了”重新包装成了一个新评价维度。
99% with ~1h robot data: 6 个任务平均成功率从 from-scratch 19% → GEN-0 fine-tune 64% → GEN-1 fine-tune 99%。所有数据均来自 1 小时 robot data + 50 万小时人类可穿戴预训练。强调”零 robot data 预训练”是这条 data engine 路线的核心论点。
~3x speed breakthrough，且超过 demonstration: Box folding 12.1s vs 34s（π0 / GEN-0），phone packing 15.5s vs ~43s。归因为 (i) 经验学习 (RL) (ii) Harmonic Reasoning 推理 (iii) 可穿戴预训练数据天然包含人类高速完成任务的样本（teleop 数据则因 force feedback 缺失而偏慢）。声称模型可超过 demonstration speed 并实时适应物理变化。
Emergent improvisation: 长尾事件中出现 bimanual in-hand regrasping、利用环境槽位做 extrinsic dexterity、对大变形物体异常构型的恢复——blog 称这些超出训练分布。但 blog 同时承认这种 emergent 行为既是优势也是 alignment liability（“应该不做什么”），暗示 deployment 时需要新的 alignment 方法。
System，不是单纯 model: blog 自己强调 GEN-1 更像 system——含定制训练基础设施（petabyte 级物理交互数据 first-class）、paged attention for real-time inference、新硬件、新地理覆盖的数据采集。这意味着外部复现门槛极高，实际可访问性接近零（仅 Early Access Partners）。

Teaser. GEN-1 multi-task highlight reel.

1. 背景：从 GEN-0 到 GEN-1

GEN-0 五个月前发布，主要贡献是给 robotics 找到了 scaling laws——下游误差随预训练数据量呈幂律下降，并在 7B 参数附近观察到 ossification 相变。但 GEN-0 的绝对性能不够 commercial：典型成功率在 60-80% 区间，难以部署。

GEN-1 的叙事是”继续 scaling + 算法升级 → 突破 commercial threshold”。Blog 用 GPT-2 → GPT-3 的类比：GPT-2 验证了 scalable multitask learning，GPT-3 跨过商业可用阈值。GEN-1 想对应到 GPT-3 的位置。

❓ 这个类比的 framing 很 powerful，但要小心——GPT-3 是公开 API + 公开 paper + 大量独立验证。GEN-1 是一篇 blog + Early Access。同样的故事讲两次，举证强度差异巨大。

Data engine 的差异化：blog 反复强调 GEN-0/GEN-1 系列的预训练完全不依赖 robot data，而是用人类佩戴的低成本可穿戴设备采集物理活动数据。这一点和 teleop-heavy 的 π0 路线、以及大规模 sim2real 路线形成明显对比。规模上 50 万小时（vs GEN-0 的 27 万小时，~1.85x 增长）。

❓ 可穿戴设备具体形态、传感器组合、observation/action 空间如何对齐到机器人本体——blog 完全没说。“零 robot data 也能预训练 VLA” 是个非常强的 claim，但缺乏技术细节支撑。

2. 定义 Mastery

Blog 把 mastery 定义为三个维度的复合：

Reliability：长时间无干预下的任务成功率。Blog 特别指出 end-to-end 模型历来难达到工业自动化级别的可靠性，过去的高成功率往往依赖大量 teleop + 窄任务集 + 复杂工程。
Speed：不只是电机转速快，而是任务完成快。高速带来非 quasi-static 动力学：摩擦/惯性项放大、运动模糊、对感知和推理的实时性要求陡增。
Improvisation（physical commonsense）：在分布外场景中创造性地恢复。Blog 引用 William James “intelligence = ability to reach the same goal by different means”。

这三者中 reliability 和 speed 容易测量，improvisation 才是 blog 想 sell 的真正卖点——前两个是工业机器人 60 年的老话题，靠 precision + 环境约束就能解决；improvisation 必须靠 intelligence。

❓ “Mastery” 这个术语有营销味道。把”成功率高 + 速度快 + 偶尔有 emergent recovery”重新包装成一个统一维度，但 (a) improvisation 没有量化指标，(b) 这个三元组并非新概念，传统 robotics 一直在追求 reliability+speed，新的只有 improvisation 这一项的来源（pretraining 而非 hand-crafted）。

3. 模型架构与训练

Blog 几乎没披露架构细节。能拼出来的只有：

Pre-training：50 万小时人类可穿戴物理交互数据，零 robot data。Blog 称”shifting the curve of compute efficiency of pretraining intelligence”，但没有给出新的 scaling law 曲线（GEN-0 给过类似的）。
Post-training：每个任务 ~1 小时 robot data fine-tune。同时承担两件事——适配新的 robot embodiment + 学习新任务。GEN-1 自称比 GEN-0 数据效率高 10x。
Learning from experience (RL)：blog 称用于推升性能，特别是 speed。具体算法、reward、是否真机/sim 训练均未披露。
Multimodal human guidance：提到但无细节。
Harmonic Reasoning：GEN-0 blog 中提出过——异步连续时间的感知/动作 token 交织。GEN-1 称其有”evolution”，但同样无细节。
Inference 工程：custom kernel、新型 paged attention 用于实时推理。

❓ 整个 § Looking Ahead 一段（“我们重新设计了分布式训练基础设施支持 PB 级数据，花了几个月调训练稳定性，写自定义 kernel，发明新型 paged attention 实现实时推理，加固控制使其更平滑精确，设计新硬件并向新地理运送了数千个机器人手”）——这段读起来像 engineering shopping list，每一项都没有具体技术内容。但作为 system 而非 model 的论证，它确实有效说明了”不是几行代码能复现的”。

Equation：scaling-related 的公式 blog 中无。 和 GEN-0 不同（后者给了 $L (D) = (D_{c} / D)^{α_{D}}$ ），GEN-1 是纯定性叙述。

4. Capabilities

4.1 Reliability

Blog 展示 6 个任务的长时序自主运行视频。每个任务展示 1x speed 单次执行 + 50x sped-up 长时序连续执行。

Video 1. Kitting auto parts —— 1x speed, fully autonomous.

Video 2. Kitting auto parts —— 1 hour without intervention (50x).

Video 3. T-shirt folding —— 1x speed, fully autonomous.

Video 4. T-shirt folding —— 86 times in a row without intervention (50x).

Video 5. Servicing robot vacuum —— 1x speed, fully autonomous.

Video 6. Servicing robot vacuum —— 200+ times in a row without intervention (50x).

Vacuum 任务的关键数字（blog Figure 1）：GEN-1 99% vs GEN-0 50% vs from-scratch 2%。

Video 7. Packing blocks —— 1,800 次连续自主运行 (50x).

Video 8. Folding boxes —— 200 次连续自主运行.

Box folding 关键数字（blog Figure 2）：GEN-1 99% vs GEN-0 81% vs from-scratch 13%。

Video 9. Packing phones —— 100 次连续自主运行.

Phone packing 关键数字（blog Figure 3）：GEN-1 99% vs GEN-0 62% vs from-scratch 42%。

Table 1. 三种训练配置在 6 个任务上的平均成功率（blog 文字汇总）

Configuration	Avg Success Rate
From-scratch (no pretraining)	19%
GEN-0 fine-tuned	64%
GEN-1 fine-tuned	99%

Blog 在 phone packing 一节加了重要免责声明：对比基线是”2025 年 11 月版本的 GEN-0”，而非 2025 年 3 月 GTC 上展示的”含 11 月以后 advances 的 GEN-0”。换言之，对比基线被刻意冻结在更弱的版本上。

❓ 三个数字（19% / 64% / 99%）是 6 任务平均还是分别在三种配置下的平均？文字说”average 19%/64%/99%“是同一组任务，所以是 apples-to-apples。但每个任务的具体数字 blog 只给了 vacuum/box/phone 三个；剩余 3 个任务（kitting、t-shirt、blocks）的成功率分布未披露。

4.2 Speed

Video 10. Phone packing speed comparison —— GEN-0 baseline.

Video 11. Phone packing speed comparison —— GEN-1 (~2.8x faster, 15.5s).

Video 12. Box folding speed comparison —— GEN-0 baseline (~34s).

Video 13. Box folding speed comparison —— GEN-1 (12.1s, 2.8x faster).

Speed 测量协议：Blog 明确说 box folding 时间只算”从触碰盒子开始折到折叠完成”——这个定义把 reach/return 等运动排除在外，对比的是核心动作段。π0 和 GEN-0 在同款盒子上都约 34 秒，π*0.6 在不同但相似的盒子上类似时长。GEN-1 ~12 秒，2.8x。

速度提升的归因（blog 给的）：

经验学习 (RL) 直接优化速度
Harmonic Reasoning 提升推理频率
可穿戴预训练数据集中人类天然以高速完成任务，与 teleop（受 force feedback 缺失/延迟/视野限制影响必然偏慢）形成对比

❓ 第 (3) 点的论证逻辑值得保留：teleop data 的速度上限不是机器人的，而是 teleoperator 远程操作的延迟上限。这个 framing 对解释为什么纯人类数据预训练能产生超越 teleop 速度的策略，是有道理的——但 blog 没有 ablation 验证哪一项贡献最大。

4.3 Improvisational Intelligence

Video 14. Emergent improvisation reel.

Blog 描述的代表性 emergent 行为：

Long-horizon kitting：washer 被外力撞偏导致抓握失稳时，模型可以选择 (a) 放回去重新抓 (b) 部分塞入插槽利用 extrinsic dexterity 重新调整 (c) 用另一只手做 bimanual in-hand regrasping。
大变形物体：在异常 configuration 下能找到恢复方式。

Blog 强调这些是分布外行为，没有显式被训练过。

❓ Blog 没有量化”improvisation rate”——多大比例的长尾事件能被恢复？没有 baseline 对比。Improvisation 是 highlight reel 而非 metric。这是这个维度的根本测量困难。

❓ Improvisation 也带来 alignment 问题——见 §6 Alignment。这个一致性问题是一个尚未解决的真问题，不是营销话术。

5. Limitations（blog 自陈）

不是所有任务都能到 99%+。
某些场景需要更高的成功率/速度才能商用。
期待下一代模型扩大可 master 任务集。

❓ Blog 没列出 failure case 视频，这是相对于 success demo 的不平衡。一篇真正诚实的 release 会展示典型 failure mode，让读者校准预期。

6. Rethinking Alignment for Embodied Intelligence

Blog 的 alignment 段落实际上是这篇 blog 中智识含量较高的一段：emergent 行为（摇袋让物体落位、把误放物品重新组织、伸手接坠物）是物理动作，有真实后果。“成功”在 robotics 中并非通用定义，而是 task-specific、workflow-specific、用户定义的。重要的不只是机器人应该做什么，更是不应该做什么。

Blog 暗示需要新的 alignment 方法——可能借鉴 Inference-Time Policy Steering through Human Interactions (ITPS, Wang et al., 2025) 这类基于推理时人类介入的 steering 框架。

❓ 这一段的 framing 比”mastery”那一节扎实得多。embodied alignment 确实是一个 open problem——VLA 越强，“emergent recovery 失误造成物理损害”的风险越高。这里不是修辞，是真实的研究方向。

7. Looking Ahead

Blog 末段总结了工程投入：

重新设计分布式训练基础设施支持 PB 级物理交互数据 first-class
数月时间提升训练稳定性
自定义 kernel
新型 paged attention 用于实时推理
post-training 技术（理论 RL 基础 + 多模态人类引导）
控制平滑性与精度加固
设计新硬件，跨地理运送数千个机器人手

❓ 这一段的功能本质上是 moat-building——告诉读者”这不是几个学者能复现的工作”。它同时也无意中暴露了：blog 中绝大多数核心 claim（数据规模、基础设施、新型 attention、定制 RL）都属于”外部不可验证”类别。

关联工作

基于

GEN-0：直接前作，同一团队，同一数据 engine 路线（可穿戴人类数据预训练 + 少量 robot data fine-tune）。GEN-1 在数据规模（27 万 → 50 万小时）、算法（RL + Harmonic Reasoning evolution）、工程（paged attention 实时推理）三方面延续并升级。
Harmonic Reasoning (GEN-0 blog 中提出)：异步感知/动作 token 交织的推理范式，GEN-1 称有 evolution 但无细节。

对比

π0：teleop + flow matching 路线的代表，box folding ~34s 是 GEN-1 速度对比的主要基线。
π*0.6：物理智能公司的更新模型，box folding 时长相似（不同盒子，约 34s）。
π0.5：物理智能公司同系列，blog 未直接对比但属于同一对照组。

方法相关

PaLM-E / RT-2：第一波 embodied foundation model，GEN-1 自陈是其延续与重新设计。
Video Language Planning (Du et al., 2023)：blog 在 world model 类工作中引用。
Inference-Time Policy Steering through Human Interactions (Wang et al., 2025)：alignment 段落引用，作为 user-defined success 的 grounding。
GPT-2 / GPT-3：blog 反复使用的类比锚点——GEN-0 ↔ GPT-2、GEN-1 ↔ GPT-3。
Kaplan & McCandlish 2020 scaling laws：scaling law 论证的理论锚点。

论文点评

Strengths

数字差距足够大：99% vs 64% vs 19% 不是 +0.3% SOTA，是阶段跃迁。如果 blog 报告的协议（apples-to-apples vs 2025-11 GEN-0、6 个任务平均、~1h robot data）属实，这是一个真实的 capability shift。
零 robot-data 预训练路线的进一步验证：从 GEN-0 到 GEN-1，可穿戴人类数据 → 预训练 → 少量 robot data fine-tune 的范式连续两次产出实质进展。这条路线的核心假设（人类物理交互数据足够覆盖 robot 操作所需的 prior）值得严肃看待。
速度突破的归因结构合理：把速度归因为 RL + Harmonic Reasoning + 数据偏置（teleop 慢 vs 人类天然快），三项归因都有逻辑支撑，且第三项是 π0 等 teleop-heavy 路线天花板的真实解释。
alignment 段落有真问题意识：emergent improvisation 既是 capability 也是 alignment liability。这个张力在大多数 VLA blog 中被忽略，GEN-1 明确点出来。

Weaknesses

Sources 严重不足：纯 blog，没有 paper、没有 github、没有 model card、没有 evaluation harness 开源。所有数字均不可独立复现。Early Access Partners only 等同于黑盒。
基线选择的策略性披露：phone packing 一节明确承认对比的是”2025-11 GEN-0”，而非 2025-03 GTC 上更强的 GEN-0 变体。这是对比基线被有意冻结在弱版本，符合 blog 营销但不符合科学评估惯例。
6 任务中只披露 3 任务的细分数字：vacuum (99%/50%/2%)、box (99%/81%/13%)、phone (99%/62%/42%)。Kitting、t-shirt、blocks 三个任务的成功率分布未给。“average 99%” 可能掩盖了任务间方差。
Improvisation 无量化指标：highlight reel 而非 metric。emergent recovery 的成功率/失败率/出现频率均未给。
算法细节几乎为零：架构、模型规模、Harmonic Reasoning 实现、RL 算法、reward 设计、可穿戴数据采集协议——全部缺失。“system not model” 这个 framing 实质上免除了 blog 披露技术细节的义务。
“Mastery” 的术语化包装：把 reliability+speed+improvisation 重新包装为新评价维度，但前两者是工业自动化老话题。这种 narrative engineering 的目的是让 GEN-1 看起来开辟了一个新评价空间，便于声称”first to cross”。
缺少 failure case：与所有 success demo 形成对比的反面证据缺失。

可信评估

Artifact 可获取性

代码: 未开源
模型权重: 未公开发布。仅 Early Access Partners 可访问（联系 partnerships@generalistai.com）
训练细节: 未披露——架构未说明、规模未说明、超参未说明、数据配比未说明、训练步数未说明
数据集: 私有（50 万小时可穿戴交互数据）

Claim 可验证性

⚠️ 6 任务平均成功率 99% (vs GEN-0 64%, vs from-scratch 19%)：grounding 仅有 blog 提供的视频和 vacuum/box/phone 三个 figure；其余 3 任务的细分数字缺失；评估协议（试验次数、成功定义、是否人为干预 reset）未披露
⚠️ Box folding 12s vs prior SOTA 34s (2.8x)：grounding 是视频对比和 π0 公开视频时长；速度测量协议（“只算触碰到完成”）合理但 narrow，可能排除了 reach/return；与不同盒子的 π*0.6 对比的可比性存疑
⚠️ Phone packing 15.5s, 2.8x faster than GEN-0：仅 blog 视频证据；定义未明
⚠️ 每任务仅需 ~1h robot data：blog 的核心 sample-efficiency 主张；无外部验证途径
⚠️ Emergent improvisation (bimanual regrasping, extrinsic dexterity)：highlight reel 形式，无量化指标，无频率/比例数据，分布外的判定无明确边界
⚠️ GEN-1 比 GEN-0 数据效率高 10x：仅文字陈述，无 ablation 曲线
❌ “first general-purpose AI model that crosses … mastery of simple physical tasks”：营销话术，“first” 和 “mastery” 都是 blog 自己定义的术语
❌ “unlocks commercial viability across a broad range of applications”：商业可用性 claim，无 deployment 案例支撑

Notes

Blog 的一贯风格：和 GEN-0 一样，high-level framing 强而技术细节空。Generalist AI 的 blog 系列本质上是 “scaling exists in robotics + we have the data + trust us”。这种范式对 reader 的认知负担是：

接受 “数据规模决定一切” 这个核心假设
接受所有数字都来自内部评估
没有可复现路径

关注点：

50 万小时人类可穿戴数据的具体形态——是否会公开任何 subset？
Harmonic Reasoning 的真实技术内涵——目前两篇 blog 都只给概念，未给定义
Embodied alignment 是真问题，GEN-1 至少把它点出来了。值得跟踪后续工作

对照检查清单：等待第三方独立评估（如学术 lab 或 Early Access Partner 公开 benchmark），关注：

同任务在新硬件/新场景下的 transfer 成功率
Failure case 分布
~1h robot data 的鲁棒性（同任务多次重新 fine-tune 方差）

与 π0 路线的对照：teleop-heavy vs 可穿戴-heavy 是 VLA 数据 engine 的两条路线之争。GEN-1 的速度突破（超过 teleop demonstration）是对前者天花板的有力反例，但 teleop 仍然在精细控制和 instruction grounding 上占优。这条路线之争值得在 DomainMap 里跟踪。

Rating

Metrics (as of 2026-04-24): citation=N/A (non-arxiv release), influential=N/A, velocity=N/A; HF upvotes=N/A; github=N/A (无代码仓库)

分数：2 - Frontier 理由：按 field-centric rubric，GEN-1 代表 embodied foundation model 方向上 “wearable human data pretraining + minimal robot fine-tune” 路线的最新前沿信号，99% 成功率 + ~3x 速度 + emergent improvisation 是值得被列入 VLA / robot manipulation baseline 对照表的阶段性跃迁；但它还不是 Foundation——无 paper / 无 code / 无 weights、所有数字均来自内部评估、基线选择有策略性披露（见 Weaknesses §1–2），作为 blog-only release 其历史地位仍待第三方验证，因此不升 3；同时它也未降至 Archived：speed > demonstration 的 framing 与 alignment 段落都是真问题，[[2410-Pi0|π0]] 路线对比（见关联工作）仍需引用其作为反例。

MindFlow

Explorer

GEN-1: Scaling Embodied Foundation Models to Mastery

Summary

1. 背景：从 GEN-0 到 GEN-1

2. 定义 Mastery

3. 模型架构与训练

4. Capabilities

4.1 Reliability

4.2 Speed

4.3 Improvisational Intelligence

5. Limitations（blog 自陈）

6. Rethinking Alignment for Embodied Intelligence

7. Looking Ahead

关联工作

基于

对比

方法相关

论文点评

Strengths

Weaknesses

可信评估

Artifact 可获取性

Claim 可验证性

Notes

Rating

Table of Contents