Summary

GR00T N1 是 NVIDIA 提出的面向 humanoid robot 的开放式 foundation model,采用 dual-system 架构(VLM System 2 + Diffusion Transformer System 1),在 heterogeneous 数据(真实机器人轨迹、人类视频、合成数据)上端到端联合训练,在多个 simulation benchmark 上超越 Diffusion Policy 等 baseline,并在 Fourier GR-1 humanoid 上实现了 language-conditioned bimanual manipulation,平均成功率 76.8%。

Problem & Motivation

构建通用 humanoid robot 面临三大核心挑战:(1)数据稀缺——真实 humanoid 数据采集成本高昂,不存在类似 web-scale 的”机器人互联网数据”;(2)embodiment 碎片化——不同机器人平台形成”数据孤岛”,难以统一利用;(3)cross-embodiment 泛化——现有方法难以处理不同 embodiment 间传感器、执行器和控制模式的差异。作者主张需要一个 full-stack solution,整合硬件(humanoid 平台)、模型(foundation model)和数据(多源异构数据),才能让机器人理解新场景、鲁棒应对现实世界变化并快速学习新任务。

Method

核心架构:Eagle-2 VLM (1.34B) + Diffusion Transformer (DiT) + Flow Matching

1. Dual-System 架构(受 Kahneman System 1/2 启发)

  • System 2(Vision-Language Module):基于预训练 Eagle-2 VLM,处理 224x224 图像(每帧 64 token embeddings)和 language instructions,运行频率 10 Hz。使用第 12 层(中间层)LLM embeddings 而非最终层,兼顾速度和性能。
  • System 1(Diffusion Transformer Module):基于 DiT 的 flow matching action head,生成 closed-loop motor actions,运行频率 120 Hz。架构交替使用 cross-attention(条件化 VLM tokens)和 self-attention(处理 noised action embeddings),类似 Flamingo/VIMA 的设计。
  • 两个模块通过 cross-attention 紧密耦合,端到端联合训练(VLM language 部分冻结,vision encoder 和 DiT 联合优化)。

2. Flow Matching Action Generation

  • 使用 conditional flow matching 建模 action 的连续分布
  • Noised action:
  • 推理时 K=4 步 forward Euler integration,action chunk H=16 步
  • Embodiment-specific MLPs 处理不同机器人的 state/action 维度差异

3. Data Pyramid(分层数据策略)

  • Base(大规模):web data(VLM pretraining)+ 人类 egocentric 视频(Ego4D, EPIC-KITCHENS, HOI4D 等 7 个数据集)
  • Middle(合成数据):simulation trajectories(780K 轨迹 / 6,500 小时,via DexMimicGen)+ neural trajectories(~827 小时,fine-tuned image-to-video model 生成,10x 数据增强)
  • Peak(真实数据):GR00T N1 Humanoid Dataset(88 小时遥操作 GR-1 数据)+ Open X-Embodiment + AgiBot-Alpha(14 万轨迹)

4. Latent Actions for Action-Less Data(关键创新)

  • 训练 VQ-VAE 从图像帧对 提取 latent action embeddings
  • 使人类视频等无 action label 的数据可用于训练
  • 创建跨所有 embodiment(包括人类)的统一 latent action space,作为独立的”LAPA” embodiment 处理

5. Neural Trajectory Generation

  • 在 88 小时真实数据上 fine-tune image-to-video model,生成 827 小时合成视频(10x 增强)
  • LLM-based object detection 创建物理可行的任务组合
  • Commercial LLM judges 过滤不符合指令的生成视频

6. 训练流程

  • Pre-training:在异构数据混合上端到端训练(~50,000 H100 GPU hours,最多 1024 H100 GPUs)
  • Post-training:在单一 embodiment 任务特定数据上 fine-tune,可选 neural trajectory co-training(1:1 比例)

Key Results

Simulation Benchmarks(每任务 100 demonstrations):

  • RoboCasa Kitchen(24 tasks, Franka Panda):GR00T-N1-2B 32.1% vs Diffusion Policy 25.6%
  • DexMimicGen Cross-Embodiment(9 tasks, bimanual):GR00T-N1-2B 66.5% vs Diffusion Policy 56.1%
  • GR-1 Tabletop(24 tasks, humanoid):GR00T-N1-2B 50.0% vs Diffusion Policy 32.7%(+17%)
  • 三项平均:45.0% vs 33.4%

Real-World(Fourier GR-1 humanoid):

  • Pre-training zero-shot:bimanual coordination 76.6%,novel object placement 73.3%
  • Post-training full data 平均:76.8% vs Diffusion Policy 46.4%(Pick-and-Place 82.0%,multi-agent coordination 82.5%)
  • Post-training 10% data:GR00T-N1-2B 42.6% vs Diffusion Policy 10.2%
  • 关键发现:10% 数据下 GR00T N1 仅比 Diffusion Policy 全量数据低 3.8%,展现极强 data efficiency

Neural Trajectory Augmentation:

  • RoboCasa 上 +4.2%~+8.8% 提升
  • Real-world 10% data 下 +5.8% 平均提升

推理速度:16-action chunk 在 L40 GPU 上 63.9ms(bf16 precision)

Strengths & Weaknesses

Strengths:

  • Dual-system 架构设计优雅:System 2 做高层理解(10 Hz),System 1 做低层实时控制(120 Hz),frequency decoupling 合理且高效
  • Data Pyramid 策略系统性地解决了 humanoid 数据稀缺问题,latent action 方法使海量人类视频数据可用,neural trajectory 提供低成本 10x 数据增强
  • Cross-embodiment 支持通过 embodiment-specific encoder/decoder MLPs 实现,设计简洁有效
  • 开源程度高:模型权重、代码、数据集均公开,对社区推动力大
  • Real-world 结果说服力强:76.8% 平均成功率显著超越 baseline,且在低数据场景下优势更明显

Weaknesses:

  • 目前仅限于 tabletop manipulation,缺乏 long-horizon loco-manipulation 能力(如移动+操作的组合任务)
  • Neural trajectory 的视频生成模型在 physics-accurate counterfactual scenarios 上仍有困难
  • VLM backbone(Eagle-2)的 spatial reasoning 和 language understanding 能力可能成为瓶颈
  • Simulation-to-reality transfer 的 gap 未被充分讨论
  • 2410-Pi0 的核心区别在于 humanoid 场景和 data pyramid 策略,架构层面(VLM + flow matching DiT)思路高度一致

Mind Map

mindmap
  root((GR00T N1))
    Problem
      Humanoid 数据稀缺
      Embodiment 碎片化
      Cross-embodiment 泛化困难
    Method
      Dual-System Architecture
        System 2: Eagle-2 VLM 10Hz
        System 1: DiT Flow Matching 120Hz
        端到端联合训练
      Data Pyramid
        Base: 人类视频 + web data
        Middle: simulation + neural trajectories
        Peak: 88h real humanoid data
      Latent Actions VQ-VAE
        跨 embodiment 统一 action space
        使 action-less 视频可用
      Flow Matching
        K=4 inference steps
        H=16 action chunk
        Embodiment-specific MLPs
    Results
      Simulation 平均 45.0% vs 33.4%
      Real-world 平均 76.8% vs 46.4%
      10% data 仍超越 baseline 全量
      Zero-shot bimanual coordination
    Limitations
      仅 tabletop manipulation
      缺乏 long-horizon loco-manipulation
      视频生成物理准确性不足

Notes

  • GR00T N1 与 2410-Pi0 在架构理念上高度相似(VLM + flow matching),核心差异在于:(1)GR00T N1 专注 humanoid embodiment;(2)提出 Data Pyramid 策略系统解决数据问题;(3)latent action 方法使人类视频可直接参与训练
  • Frequency decoupling(System 2 @10Hz, System 1 @120Hz)是一个值得关注的设计模式——高层认知不需要高频更新,低层控制需要实时响应,这种分离可能成为 VLA 的标准范式
  • Neural trajectory generation 的 10x 数据增强效果显著,但质量过滤依赖 LLM judge,这个 pipeline 的可靠性和可扩展性值得进一步验证
  • 开源策略(模型+代码+数据)可能使 GR00T N1 成为 humanoid VLA 的重要 baseline,类似 OpenVLA 在 manipulation 领域的角色