Summary
X-VLA 提出了一种基于 soft prompt 的 cross-embodiment VLA 架构,通过为每个数据源分配可学习的 embedding 来吸收不同机器人平台间的异构性,结合 flow matching 生成连续动作,仅 0.9B 参数即在 6 个仿真 benchmark 和 3 个真实机器人平台上达到 SOTA,展示了良好的 scaling 特性。
Problem & Motivation
现有 VLA 模型在 cross-embodiment 训练中面临严重的异构性问题:不同机器人平台的 action space、camera 配置、visual domain 和 task distribution 存在巨大差异,导致联合训练时出现 distributional shift。已有的异构性处理策略各有缺陷:domain-specific action projection 仅在最终阶段处理差异;HPT-style input projection 训练不稳定;language prompt 需要手工设计描述。X-VLA 希望找到一种参数高效、训练稳定且灵活的方案来统一多平台数据。
Method
核心架构:Florence-Large (Vision-Language Encoder) + 24-layer Transformer Encoder (Backbone) + Flow Matching (Action Generation)
1. Soft Prompt 机制
- 为每个数据源分配一组可学习的 embedding 作为 embodiment-specific prompt
- Soft prompt 在 feature fusion pipeline 的早期阶段注入,引导 backbone 区分不同平台
- Backbone 本身保持 embodiment-agnostic,由 soft prompt 承载平台差异信息
- Fine-tuning 时仅需调整约 1% 的参数(soft prompt + 少量适配层)
2. 多模态输入处理
- 高维观测流:Florence-Large 处理固定视角图像和语言指令;辅助视角(如 wrist camera)使用独立 vision backbone 避免 semantic misalignment
- 低维本体感知流:关节位置和 end-effector pose 与 time embedding 拼接,经轻量 linear projection 后与其他模态 early fusion
3. Flow Matching Action Generation
- 用 conditional flow matching 对连续 action distribution 建模
- 从 noise sample 出发,通过 Transformer backbone 去噪生成动作序列
- 统一的 action representation:Cartesian position + Rotate6D rotation + gripper state
4. 数据处理增强
- Aligned action representation:统一不同平台的 end-effector pose 表示
- Intention abstraction:temporal downsampling 至 4 秒内 30 个 anchor points,过滤噪声动作
- Balanced sampling:跨 domain 和 trajectory 打乱,防止数据分布偏差
5. 两阶段训练
- Phase I (Pretraining):在 290K 异构 episodes(7 个平台、5 种机械臂)上联合优化 backbone 和 soft prompts
- Phase II (Domain Adaptation):先冻结 backbone 做 prompt warm-up,再联合优化 backbone 和 adapted prompts
Key Results
仿真 Benchmark(X-VLA-0.9B):
- LIBERO:Spatial 98%、Object 75.7%、Goal 95.8%、Long-horizon 80.4%,均为 SOTA
- Simpler-WidowX:96% 成功率
- CALVIN、RoboTwin-2.0、VLABench、NAVSIM:均达到 SOTA
真实世界验证:
- 在 3 个物理机器人平台上测试
- Dexterous cloth folding:约 100% 成功率,33 folds/hour(与 π₀ 可比)
- 发布 Soft-Fold 数据集(1200 条 cloth folding trajectories)
参数高效 Fine-tuning:
- 仅调 9M 参数:LIBERO 93%、Simpler-WidowX 54%
Scaling 特性:
- 模型规模(0.1B → 0.9B)、数据多样性(1 → 7 sources)、数据量(95K → 290K episodes)三个维度均未出现饱和
Soft Prompt vs. 其他策略对比(Figure 4):
- Soft prompt 在收敛稳定性和最终性能上显著优于 domain-specific projection、HPT-style projection 和 language prompt
Strengths & Weaknesses
Strengths:
- Soft prompt 设计简洁优雅,仅需极少额外参数即可处理 cross-embodiment 异构性,避免了对 backbone 的侵入式修改
- Flow matching + standard Transformer encoder 的架构相比 π₀ 的 action expert 更为简洁,scalability 更好
- 实验覆盖 6 个仿真 + 3 个真实平台,评测全面;cloth folding 结果与 π₀ 可比是强有力的验证
- Intention abstraction(temporal downsampling to anchor points)是实用的数据处理创新
- 四种异构性处理策略的系统对比实验(Figure 4)具有参考价值
Weaknesses:
- 0.9B 模型规模虽然参数效率高,但能否继续 scale up 到更大规模仍需验证
- Pretraining 数据(290K episodes)规模相对有限,远小于 π₀ 的 903M timesteps
- Cross-embodiment zero-shot transfer(无需 fine-tuning 直接部署到新平台)尚未展示
- Soft prompt 的最优设计(维度、数量、注入位置)缺乏理论分析,主要靠经验调参
- 论文未详细讨论不同 embodiment 之间 knowledge transfer 的机制和程度
Mind Map
graph TD A[X-VLA] --> B[Soft Prompt 机制] A --> C[Flow Matching Action] A --> D[Cross-Embodiment Training] A --> E[Two-Phase Training] B --> B1[Learnable Embeddings per Data Source] B --> B2[Early Fusion Injection] B --> B3[1% Parameter Fine-tuning] C --> C1[Conditional Flow Matching] C --> C2[Rotate6D + Cartesian Pose] C --> C3[Intention Abstraction / 30 Anchors] D --> D1[7 Platforms / 5 Arm Types] D --> D2[290K Episodes] D --> D3[Aligned Action Representation] E --> E1[Phase I: Joint Pretraining] E --> E2[Phase II: Prompt Warm-up → Joint Adapt] A --> F[Results] F --> F1[LIBERO SOTA] F --> F2[Cloth Folding ~100%] F --> F3[Scaling Not Saturated]