Summary
A1 是一个完全开源的 VLA 框架,通过 budget-aware adaptive inference(early-exit + inter-layer truncated flow matching)将 flow-matching action head 的推理延迟降低最高 72%,同时在 LIBERO、VLABench 和真实机器人上保持 SOTA 水平的成功率。
Problem & Motivation
当前 VLA 模型将数十亿参数的 VLM backbone 与迭代式 diffusion/flow-matching action head 结合,导致推理延迟高、计算成本大,难以在消费级硬件上实现实时机器人控制。现有开源 VLA 方案要么性能不足,要么缺乏完整的训练栈公开,限制了社区复现和改进。A1 试图同时解决效率和透明性两个问题。
Method
VLM Backbone: 基于 Molmo-7B(vision encoder + 28 层 Qwen2),利用预训练权重提供 affordance 先验。
Action Head: 提供两种实现——
- A1-FM (Flow Matching): 使用 Qwen3-400M 作为 expert,通过 conditional flow matching 生成 action 分布,采用 KV-conditioned self-attention 将 VLM prefix context 作为 cached KV 注入。
- A1-MLP: 简单 L1 回归。
Adaptive Inference 加速(核心贡献):
- Early-Termination via Action-Consistency Thresholding: 监测连续 VLM 层之间 action 预测的差异 ,当差异低于阈值 时提前退出。阈值通过训练数据上的 quantile-based 方法离线校准。
- Inter-Layer Truncated Flow Matching: 关键创新——不在每层从随机噪声重新开始 denoising,而是用 步 warm-start 初始化(),跨层传播 denoising 进度。
训练流程: 两阶段——
- Pretraining(200K steps): 使用 DROID、AgiBot、RoboCOIN 等多个开源数据集 + 15,951 条自采真实轨迹。冻结 ViT backbone,采用层次化平衡采样避免单数据源偏差。
- Fine-tuning: 针对具体任务微调。
Key Results
仿真:
- LIBERO: 平均 96.6% 成功率,与 OpenVLA-OFT (97.1%) 和 (96.9%) 竞争力相当
- VLABench: 平均 53.5%,高于 (49.5%) 4 个百分点
- LIBERO-Plus zero-shot: 75.3%,优于 OpenVLA-OFT 和 -FAST
真实机器人:
- 跨 Franka、AgiBot、WuJie-Arm、Dobot-Arm 四平台平均成功率 56.7%,高于 (47.5%) 和 (40.8%)
- RoboChallenge: 29.0%(开源最高),超过 (28.33%)、X-VLA (21.33%)
效率:
- Early-exit (c=1.0): 减少 15.6% backbone 计算
- Truncated flow matching ( + warm-start): 每 episode 延迟从 37.8s 降至 10.5s(72.3% 降低)
- 极端设置 (c=0.1): 减少 76.6% 计算,性能仅下降 1.7%
Strengths & Weaknesses
亮点:
- 完全开源(模型权重、训练代码、数据处理、评估协议),这在 VLA 领域尤为稀缺, 系列至今未公开完整训练栈
- Inter-layer truncated flow matching 思路简洁有效——利用了 flow trajectory 跨层的连续性,属于 first-principles 层面的观察
- 跨 4 种机器人平台的真实世界评估,覆盖面较广
- Ablation 充分,early-exit 阈值与性能的 trade-off 分析透明
局限:
- 仿真性能并未超越 SOTA(LIBERO 上略低于 OpenVLA-OFT),核心优势在效率而非精度
- 预训练依赖有标注的 affordance 数据集,数据规模受限
- 真实世界绝对成功率(56.7%)仍有很大提升空间,说明 imitation learning 的 compounding error 问题尚未解决
- 部分 baseline 对比(如 、)是否使用相同数据量和微调策略不完全清楚,可能存在对比不公平的风险
影响: 对开源 VLA 社区有直接推动作用。Adaptive inference 方案可以推广到其他使用 flow-matching 的 VLA 模型,但核心贡献更偏 engineering 而非 fundamental insight。
Mind Map
mindmap root((A1)) Problem VLA 推理延迟高 开源方案缺乏完整训练栈 Method Molmo-7B backbone Flow Matching action head Early-exit thresholding Inter-layer truncated flow matching 两阶段训练 + 层次化采样 Results LIBERO 96.6% 72% 推理加速 跨 4 平台真实部署 完全开源