Summary

π0: A Vision-Language-Action Flow Model for General Robot Control

  • 核心: 首个结合预训练 VLM 与 flow matching 的 VLA,在 10,000+ 小时多机器人数据上预训练,实现前所未有的灵巧操作泛化
  • 方法: PaliGemma backbone + action expert MoE + flow matching action generation + pre-train/post-train recipe
  • 结果: Zero-shot 和 fine-tuning 评估中大幅超越 OpenVLA/Octo;首次展示折叠衣物、组装纸箱等长 horizon 灵巧任务
  • Sources: paper | website | github
  • Rating: 3 - Foundation(事实上的 flow-matching VLA 奠基工作,后续主流 VLA 工作的必引 baseline,openpi 已成为社区标杆)

Key Takeaways:

  1. Flow matching + VLM 架构: 在预训练 VLM (PaliGemma) 上引入 action expert 和 flow matching,输出 50Hz 连续动作分布,兼顾语义理解和灵巧控制
  2. Pre-training / Post-training recipe: 类似 LLM 的两阶段训练——大规模多样预训练提供广泛物理知识和纠错能力,高质量后训练数据教模型流畅执行
  3. Cross-embodiment 规模: 7 种机器人配置、68 个任务、10,000+ 小时数据的统一预训练,在 zero-shot 和 fine-tuning 任务上大幅超越 OpenVLAOcto

Teaser. π0 controls a mobile manipulator to fold laundry — pre-trained on data from 7 robot configurations and 68 tasks.


Introduction

Robot learning 面临数据、泛化、鲁棒性三大瓶颈。类比 NLP 和 CV 中的 foundation model,作者认为 generalist robot policy(即 robot foundation model)可以通过大规模多样数据的预训练来解决这些问题——就像鸟类识别最好先在大规模 image-language 数据上预训练再微调。

核心贡献:

  • 架构:基于 VLM 预训练 + flow matching 的新型 generalist robot policy
  • 训练 recipe:pre-training / post-training 两阶段,直觉是——只用高质量数据模型不会从错误中恢复,只用低质量预训练数据模型不会高效执行,两者结合才能得到理想行为
  • 评估:zero-shot control、language instruction following、fine-tuning to downstream tasks,覆盖叠衣服、清理餐桌、组装箱子等高难度任务

Overview

Figure 3. Framework overview: pre-training mixture → flow matching VLA with VLM backbone + action expert, initialized from PaliGemma.

训练流程分两阶段:

  1. Pre-training: 自有灵巧操作数据集(7 种机器人、68 个任务)+ OXE 开源数据集(22 种机器人);使用 task name + segment annotation(~2s 子轨迹细粒度标注)作为 language label
  2. Post-training: 高质量 task-specific 数据微调——简单任务 5 小时,复杂任务 100+ 小时

模型基于 PaliGemma VLM,加入 flow matching 动作输出,形成 VLA。PaliGemma 被选择是因为其 3B 参数规模在性能和实时控制间取得平衡。

The π0 Model

π0 的核心设计:

  • VLM backbone (PaliGemma, 3B params): 标准 late fusion VLM,图像编码器将 RGB 图嵌入与 language token 相同的 embedding space
  • Action expert (~300M params): 单独一组 transformer weights 处理 robot state 和 action tokens,通过 self-attention 与 VLM backbone 交互(类似 2-expert MoE)
  • Flow matching: 建模连续动作分布 ,其中 action chunk

观测 ,包含多张 RGB 图、language command、proprioceptive state。

Equation 1. Conditional flow matching loss

符号说明: 下标为 robot timestep,上标 为 flow matching timestep;使用 linear-Gaussian probability path 含义: 训练时采样随机噪声 ,计算 noisy actions ,网络输出匹配 denoising vector field

Equation 2. Forward Euler integration (inference)

含义: 推理时从 积分,使用 10 步 (),observation prefix 的 KV cache 可复用。

关键架构细节:

  • Attention mask: 三块 blockwise causal——(1) images + language、(2) proprioceptive state、(3) noisy actions。每块内部 bidirectional,跨块因果。设计原因:保持 VLM 预训练分布不偏移,state 的 KV 可缓存
  • Action expert 下缩: width=1024, mlp_dim=4096(VLM backbone 是 width=2048, mlp_dim=16384),加速推理中的多次 forward pass
  • Flow matching timestep 采样: 使用 shifted Beta 分布 ,强调低 timestep(高噪声),因为 action prediction 不同于 image synthesis——observation 对 action 的约束远强于 text label 对 image 的约束
  • π0-small: 470M 参数消融版,不用 VLM 初始化,使用 DistilBERT 编码 language、DiT architecture action expert、encoder-decoder 结构

Table 1. Inference time on NVIDIA RTX 4090

Model PartInference Time
Image encoders14 ms
Observation forward pass32 ms
x10 action forward pass (flow)27 ms
Network latency (if off-board)13 ms
Total on-board inference73 ms
Total off-board inference86 ms

Action chunk 开环执行:50Hz 机器人每 0.5s 推理一次(25 个 action),20Hz 机器人每 0.8s 一次(16 个 action)。不使用 temporal ensembling(实验发现会降低性能)。

Data Collection and Training Recipe

Pre-training and post-training

Figure 4. Dataset overview: pre-training mixture weights and relative sizes.

数据组成:

  • 9.1%: 开源数据(OXE、Bridge v2、DROID)——覆盖广泛物体和环境,低频控制(2-10 Hz)
  • 90.9%: 自有数据——903M timesteps,其中 106M 单臂、797M 双臂,68 个任务
  • 每个 task-robot 组合按 加权,down-weight 过度代表的组合
  • Configuration 和 action 向量统一为最大维度 18(双 6-DoF 臂 + 2 gripper + mobile base + torso),低维机器人零填充

Post-training 使用 task-specific 高质量数据,简单任务 5 小时起,复杂任务 100+ 小时。直觉:多样但低质量的预训练数据让模型能从错误中恢复;高质量后训练数据教模型流畅高效地执行。

Language and high-level policies

复杂需要语义推理的任务(如 table bussing),使用高层 VLM 将高层命令分解为中间子任务语言指令(类似 SayCan),π0 作为低层执行策略。

Robot system details

Figure 5. The 7 robot configurations used for training.

7 种配置:UR5e 单臂(7D)、双臂 UR5e(14D)、Franka(8D)、双臂 Trossen/ALOHA 配置(14D)、双臂 ARX/AgileX(14D)、Mobile Trossen/ARX(16D action)、Mobile Fibocom 全向底盘(17D action)。

Experimental Evaluation

Evaluating the base model

Figure 6. Zero-shot evaluation tasks.

Figure 7. Zero-shot evaluation results.

5 个 zero-shot 任务(shirt folding、bussing easy/hard、grocery bagging、toast out of toaster),对比 OpenVLA (7B)、Octo (93M)、π0-small (470M)。结果:

  • π0 在所有任务上大幅领先(near perfect on shirt folding 和 bussing easy)
  • 即使 compute parity 版(160k steps vs. 700k)也超越所有 baseline
  • π0-small > OpenVLA > Octo,说明 flow matching + action chunking 的架构优势
  • OpenVLA 困难在于其 autoregressive discretization 不支持 action chunk;Octo 的 diffusion 能力有限

Following language commands

Figure 8. Language-conditioned evaluation tasks.

Figure 9. Language evaluation results.

3 个任务(bussing、table setting、grocery bagging),5 种条件:

  • flat: 只给总任务描述
  • human: 人类提供中间步骤指令
  • HL: 高层 VLM 自动提供中间指令

π0 的 language following 准确度显著优于 π0-small,VLM 预训练直接转化为更好的语言指令跟随能力。π0-human > π0-HL > π0-flat,说明中间语言指令确实有帮助。π0-small 因语言理解差,即使加 human guidance 也提升有限。

Learning new dexterous tasks

Figure 10. Fine-tuning evaluation tasks across difficulty tiers.

Figure 11. Fine-tuning results with varying data amounts.

5 个新任务分三个难度等级:

  • Easy(与预训练类似): stack bowls、towel folding
  • Medium(部分新元素): tupperware in microwave
  • Hard(全新): paper towel replacement、Franka items in drawer

对比 ACT、Diffusion Policy、OpenVLA、Octo。π0 consistently 最优,且预训练带来更大提升尤其在数据量小时(1h data 时 tupperware 任务显著优于 baseline)。有趣的是,prior methods 中从头训练的(ACT、Diffusion Policy)反而比预训练微调的(OpenVLA、Octo)更强,说明有效利用预训练是这些先前方法的主要挑战。

Mastering complex multi-stage tasks

Figure 12. Complex multi-stage tasks: laundry, bussing, box building, egg packing, to-go box.

Figure 13. Post-training results on complex tasks.

7 个高难度长 horizon 任务(5-20 分钟),包括 laundry folding(从随机揉皱状态开始折叠多件衣服)、mobile laundry、mobile dryer unloading、table bussing(12 种新物体)、box building、egg packing、to-go box packing。

对比三个消融:full pre-train + fine-tune vs. zero-shot vs. from scratch。结果:

  • 完整 recipe(预训练+后训练)在所有任务上最优
  • 预训练对更难任务的提升更大(box building、egg packing 等从头训练几乎无法完成)
  • 无先前方法能解决这些任务,代表了 learned policy 灵巧操作的新 SOTA

Video. π0 autonomously unloads dryer and folds clothes (single policy, uncut).

Discussion, Limitations, and Future Work

局限性和未来方向:

  • 预训练数据如何组成的理解不够充分——目前是把所有可用数据组合在一起
  • 并非所有任务都能可靠工作,如何预测需要多少/什么类型数据仍是开放问题
  • 跨更大领域(自动驾驶、导航、足式运动)的正向迁移尚待验证
  • 未来方向:long-horizon reasoning and planning、autonomous self-improvement、robustness、safety

关联工作

基于

  • PaliGemma: 3B 参数 VLM,作为 π0 的 backbone 初始化
  • Transfusion: 单 transformer 多目标训练——continuous tokens 用 flow matching loss,discrete tokens 用 cross-entropy loss
  • Flow Matching / Conditional Flow Matching: 使用 linear-Gaussian probability path 的连续动作分布生成
  • Open X-Embodiment (OXE): 22 种机器人的开源 cross-embodiment 数据集,作为预训练混合的一部分
  • Mobile ALOHA: 双臂移动操作平台,π0 的部分机器人配置基于此

对比

  • OpenVLA: 7B VLA,autoregressive discretized actions,不支持 action chunk,在高频灵巧任务上表现差
  • Octo: 93M 参数,支持 diffusion action 输出但表示能力有限
  • ACT: Action Chunking with Transformers,from-scratch 训练的灵巧操作基线
  • Diffusion Policy: 基于 diffusion 的视觉运动策略学习

方法相关

  • Action Chunking: 预测未来 H 步动作序列而非单步,π0 使用 H=50
  • SayCan: VLM 高层规划分解任务为子目标语言指令,π0 类似地使用 high-level VLM policy
  • Mixture of Experts: action expert 的设计类似 2-expert MoE,不同 token 路由到不同权重

论文点评

Strengths

  1. Architecture 设计精妙: action expert 与 VLM backbone 通过 self-attention 交互的 MoE 设计,既保留了 VLM 预训练权重不被破坏,又允许 action-specific 的灵活表示;blockwise causal attention mask 和 KV caching 策略工程上很优雅
  2. Pre-train / post-train recipe: 明确类比 LLM 训练范式,给 robotics community 一个清晰的方法论——多样数据学鲁棒性,高质量数据学流畅性
  3. 评估任务难度空前: 折叠多件衣服、组装纸箱、打包鸡蛋等长 horizon 灵巧任务远超此前 VLA 评估的 “pick up the cup” 级别
  4. 规模性: 10,000+ 小时数据、7 种机器人配置——这种规模本身就是重要贡献

Weaknesses

  1. 数据不可复现: 90.9% 数据为私有,核心竞争力在数据而非纯架构,学术界难以完全复现
  2. 公平比较受限: OpenVLA 和 Octo 在作者的高频复杂数据混合上训练天然不利(OpenVLA 不支持 action chunk),π0-small 同时更小且无 VLM 初始化,难以分离各因素贡献
  3. 泛化范围有限: 所有任务仍为桌面/室内操作,对更广泛的 embodied 场景(户外、动态环境、多 agent)未做探索
  4. Scaling law 缺失: 未分析数据量/模型大小/计算量与性能的 scaling 关系

可信评估

Artifact 可获取性

  • 代码: inference + training(openpi repo 提供完整训练和推理代码,支持 JAX 和 PyTorch)
  • 模型权重: π0 base、π0-FAST base、π0-FAST-DROID、π0-DROID、π0-ALOHA-towel、π0-ALOHA-tupperware、π0-ALOHA-pen-uncap(均通过 GCS bucket 发布)
  • 训练细节: 仅高层描述——提到 700k steps、 加权、Beta timestep sampling 等,但完整超参和训练配置未在论文中详尽披露
  • 数据集: 部分公开——OXE、Bridge v2、DROID 为开源;自有 dexterous manipulation 数据(903M timesteps)私有

Claim 可验证性

  • ✅ Zero-shot 性能优于 OpenVLA/Octo: 论文提供详细评估 rubric、10 episode 平均、多 task 比较,且开源模型可复现部分实验
  • ✅ Flow matching 优于 autoregressive discretization for dexterous control: 架构分析合理,OpenVLA 的 failure 模式(不支持 action chunk、高频控制)有清晰解释
  • ⚠️ “Most capable and dexterous generalist robot policy to date”: 任务确实比 prior work 难很多,但缺乏与 ACT/Diffusion Policy 在复杂多阶段任务上的直接对比(仅在简单 fine-tuning 任务上比较)
  • ⚠️ Pre-training 的独立贡献: 预训练 vs. from scratch 比较在复杂任务上令人信服,但预训练数据的组成对结果的影响未充分分析

Notes

Rating

Metrics (as of 2026-04-24): citation=1480, influential=286 (19.3%), velocity=83.62/mo; HF upvotes=31; github 11498⭐ / forks=1828 / 90d commits=22 / pushed 8d ago

分数:3 - Foundation 理由:π0 已成为 flow-matching VLA 范式的奠基工作——openpi 是 VLA 方向最被采用的开源 codebase 之一(GitHub 上 star 数千、社区持续贡献),后续主流 VLA 工作(π0.5GR00T N1SmolVLAOpenVLA-OFT 等)均将其作为必引 baseline 或直接复用其架构。相比 2 - Frontier,它不是”最新 SOTA 之一”而是已定型为方向的参考点;相比被取代的老工作,其架构(VLM + action expert MoE + flow matching)仍在被活跃复用和扩展,属于 field 必读。