Summary

π₀ 是 Physical Intelligence 提出的通用机器人基础模型,基于预训练 VLM(PaliGemma 3B)+ flow matching action head 架构,在 7 个机器人平台、68 个任务上联合训练,实现了高频(50 Hz)灵巧操作,在 laundry folding、table bussing、box assembly 等复杂任务上显著优于 OpenVLA 和 Octo 等 baseline。

Problem & Motivation

现有 VLA 模型(如 RT-2-X、OpenVLA)采用 autoregressive token 预测动作,无法处理高频率、高维度的灵巧操作。机器人领域缺少一个真正的 generalist policy,能够跨平台、跨任务泛化,同时支持 zero-shot 执行和高效 fine-tuning。作者希望借鉴 LLM 的 pre-training → post-training 范式,构建机器人领域的 foundation model。

Method

核心架构:PaliGemma (3B) + Action Expert (300M) + Flow Matching

1. 模型架构

  • 基座:PaliGemma 3B(SigLIP vision encoder + Gemma language model)
  • Action Expert:额外 300M 参数的 transformer,专门处理 robot state 和 action tokens
  • 采用类 Mixture-of-Experts 设计:action tokens 之间 full bidirectional attention,与 VLM tokens 分离处理,避免 action loss 破坏 VLM 预训练分布
  • 总参数量:~3.3B

2. Flow Matching Action Head

  • 用 conditional flow matching(diffusion 的变体)建模 action 的连续分布
  • 训练时对 action trajectory 加噪,学习 denoising
  • 推理时用 forward Euler integration,10 步(δ=0.1)生成 action
  • Action chunk:H=50 timesteps,最高 50 Hz 控制频率
  • Action space:最大 18 维(双臂 6-DoF × 2 + 2 grippers + mobile base + torso),低维机器人用 zero-padding

3. Pre-training → Post-training

  • Pre-training:10,000+ 小时数据,903M timesteps,跨 7 个平台 68 个任务
    • 包含 recovery behaviors 和低质量数据,增强鲁棒性
    • 数据来源:90.9% 自有数据 + 9.1% 开源数据(OXE, Bridge v2, DROID)
    • 数据加权:n^0.43 防止大数据集主导
  • Post-training:在高质量 curated 数据上 fine-tune,每个任务 5-100+ 小时

4. 推理延迟

  • On-board (RTX 4090):73ms
  • Off-board (WiFi):86ms

Key Results

Zero-Shot(预训练后直接评估):

  • Shirt folding: ~95% 成功率
  • Bussing easy: ~90%
  • Bussing hard: ~60%
  • Grocery bagging: ~85%
  • Toast from toaster: ~75%
  • 显著优于 OpenVLA 和 Octo

Fine-Tuning 后:

  • Stack bowls:超越 ACT 和 Diffusion Policy
  • Towel folding:仅需 1-2 小时数据即可显著提升
  • Tupperware in microwave:比 baseline 提升 2×

复杂多阶段任务(10 trials):

  • Laundry folding:50%+ maximum score
  • Box assembly:成功处理可变形纸板
  • Egg packing:精细物品放置
  • Pre-training 对最难任务的提升最为显著

Language Following: π₀ 在指令跟随任务上显著优于 π₀-small(无 VLM 版本),支持 human expert 和 high-level VLM 指导。

Strengths & Weaknesses

Strengths:

  • Flow matching + action expert 的架构设计优雅地解决了 VLA 中 action loss 破坏 VLM 预训练的问题
  • 50 Hz action chunking 使高频灵巧操作成为可能,这是 autoregressive VLA 无法做到的
  • Pre-training/post-training 分离范式与 LLM 对齐,概念清晰且有效
  • 跨 7 个平台的 cross-embodiment 训练展示了强泛化能力
  • 开创性工作,奠定了 robot foundation model 的范式

Weaknesses:

  • 最优 pre-training 数据配比仍是 heuristic(n^0.43),缺乏理论指导
  • 任务成功率不稳定,需要多少数据才能达到近乎完美还不清楚
  • 跨平台正迁移的程度尚未充分量化
  • 是否适用于 autonomous driving、navigation、legged locomotion 等不同 domain 未验证
  • Code 非官方开源(仅社区复现)

Mind Map

mindmap
  root((π₀))
    Problem
      Autoregressive VLA 无法高频控制
      缺乏 generalist robot policy
      跨平台泛化困难
    Method
      PaliGemma 3B backbone
      Action Expert 300M
        MoE-style 分离设计
        避免破坏 VLM 预训练
      Flow Matching
        Conditional flow matching
        50 Hz action chunking
        H=50 prediction horizon
      Pre-train → Post-train
        10K+ hours 跨 7 平台
        68 tasks
    Results
      Zero-shot 高成功率
      超越 OpenVLA / Octo
      复杂任务 laundry / box assembly
      73ms inference latency
    Limitations
      数据配比 heuristic
      成功率不稳定
      Domain 泛化未验证

Notes

  • π₀ 是 robot foundation model 赛道的标志性工作,确立了 VLM + flow matching 的范式
  • Action Expert 的 MoE 设计思路值得借鉴:在多模态模型中,不同模态的 loss 可能相互干扰,用独立参数处理是有效的解决方案
  • Pre-training/post-training 的分离与 LLM 领域的 base model → instruction tuning 高度一致,说明 scaling recipe 可能在不同 AI 领域具有通用性
  • 后续工作 π0.5 加入了 high-level VLM reasoning,π0.6 加入了 online learning,形成了完整的技术路线