Summary
A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated VLA
- 核心: 一个完全开源的 VLA,目标是在不损失成功率的前提下,把 VLM backbone 和 flow-matching action head 的推理成本一起砍掉
- 方法: (1) 训练时多层共享 action head + 多层 supervision;(2) 推理时用 layer 间 action consistency 触发 early-exit;(3) Inter-Layer Truncated Flow Matching:每层只跑 δ=2 步去噪,并把上一层去噪结果作为下一层 warm-start 而非随机噪声
- 结果: LIBERO 96.6%、VLABench 53.5%、real-world 4 平台均值 56.7%、RoboChallenge 29.00%(>π0 的 28.33%);FM 推理在 LIBERO 上 37.8s → 10.5s/episode(-72%),backbone 计算可减 76.6% 而精度只掉 1.7%
- Sources: paper | website | github
- Rating: 1 - Archived(核心增量(inter-layer warm-start FM)是 DeeR-VLA + π0 的工程化组合,RoboChallenge 整体排第六、与 π0 仅差 0.67pp 且无显著性,缺 backbone/baseline ablation,“完全开源” framing 多于方法贡献)
Key Takeaways:
- Joint backbone + head 加速:以前的 efficient VLA 工作(EdgeVLA、EfficientVLA、DeeR-VLA 等)要么只压 VLM 要么只压 head,A1 的关键观察是:当 VLM 早退后,flow-matching head 在每个候选 exit 都要跑 δ 步,反而成为新瓶颈——因此必须同时截断两侧
- Warm-start across layers:把 layer i 的去噪输出当作 layer i+1 去噪的初始条件(而非重新采高斯噪声),这样 δ=2 也能保持精度,是这篇文章相对 DeeR-VLA 的核心增量
- Action consistency = exit signal:用相邻层 action chunk 的差异(cosine / L2 / MAD)触发早退,threshold 用训练集 quantile + 一个 exponential exit_distribution 离线标定,简单且可调 budget
- 完全开源 vs. SOTA 之间的 trade-off:在 RoboChallenge 上排第六(DM0 62%、Spirit 51%、GigaBrain 51.67% 都比 A1 强),但在所有”完全开源 + 公开数据”的方法里排第一——文章的”transparency” 立意远比”绝对 SOTA” 立意诚实
- Backbone 用 Molmo-7B,head 用 Qwen3-400M FM:Molmo 提供 affordance prior 的说法重复了作者自己的 A0 论文(xu2025a0),但本文没做 ablation 比较 Molmo vs PaliGemma 之类的 backbone 选择是否真的关键
Teaser. A1 的整体架构与训练 / 推理 pipeline。

Figure 1: VLM backbone(Molmo)+ 两种 action head(Flow Matching 或 MLP),训练时所有中间层都接同一个 shared action head 做 supervision;推理时根据 budget-aware exit criterion 选择某一层早退,FM head 在每层只跑少量去噪步并跨层 warm-start。
Background & Motivation
VLA 的部署成本来自两部分:
- Backbone 大:billion-scale VLM(π0、π0.5、wall-oss 等都是这个量级)
- Action head 慢:flow-matching / diffusion 通常需要 10-20 步迭代去噪
之前的 efficient VLA 工作(EdgeVLA、FAST、EfficientVLA、TinyVLA、SmolVLA 等)大多只压一边,而 DeeR-VLA 虽然用 early-exit 压 backbone,但没处理 head 的 per-layer 重复开销。A1 的论点是:当你早退时 head 也得在每个候选 exit 处跑一遍,原本不显眼的 head 反而变成新瓶颈——所以必须 joint。
三个支撑这个设计的经验观察(Sec. 1):
- Trajectory convergence: flow-matching 通常 < 3 步就锁定到正确 mode
- Action redundancy: 相邻控制 step 的动作变化很小
- Layer-wise coupling: VLM 的中间层 hidden state 已经够指导 action 预测
❓ 第 1 点(“FM 3 步就收敛”)是否依赖任务难度?文章没给 trajectory convergence 的定量证据,只是经验陈述。
Method
架构
- VLM backbone: Molmo-7B(CLIP/SigLIP vision encoder + 28-layer Qwen2-7B),权重从 Molmo 初始化以继承 affordance prior
- Action head:两个变体
A1-FM:基于 Qwen3-400M 的 flow-matching expert,通过 KV-conditioned self-attention 接 prefix;学习 conditional vector field,推理时用 forward Euler 积分 τ ∈ [0,1]A1-MLP:在输入加 special action query token,hidden state 直接经 MLP 输出连续动作,L1 loss 监督
输入: (多视角图 + proprioception)+ 语言指令
输出: action chunk
Equation 1. FM 训练目标(conditional flow matching loss)
其中 noisy action ,target vector field , 从偏向 noisy 端的 Beta 分布采样(沿用 π0)。
Multi-Layer Supervision(训练侧)
训练时随机采样层索引 ,把 layer 的 hidden state 喂进 shared action head 算 loss 。也可以”对所有 L 层都监督”以更稳定。这样 head 学会 graceful degradation——不论 backbone 跑到哪层都能输出合理动作。

Figure 2: 训练时所有层共享同一个 action head 并被同时 supervise;推理时根据 exit criterion c 决定在哪层退出,FM head 用 inter-layer warm-start 加速。
Early-Termination via Action Consistency(推理侧 — backbone)
Equation 2. Exit condition
可选 cosine / L2 / mean absolute deviation。Threshold 离线标定:
- 在训练集上 forward 一遍,收集每层 action discrepancy 矩阵
- 把目标 budget 转成 exit 概率分布 (exponential 默认;也支持 Gaussian / Gamma), 是 exit_criterion
- 从早层到晚层依次取未被分配样本的 -quantile 作为 ,最后一层 兜底
❓ 这个 calibration 隐含假设:测试分布与训练集 discrepancy 分布一致。在 LIBERO-Plus 这种 distribution shift 场景下,threshold 还会不会触发合理的 exit?文章没分析。
Inter-Layer Truncated Flow Matching(推理侧 — head)
这是文章的核心增量。Naive 做法是 “每层 exit 候选都跑 δ=10 步去噪”,但这样 head 反而成为瓶颈。A1 的做法:
- 把 δ 设成很小的值(如 2)
- 跨层 warm-start:
Equation 3. Warm-start across layers
也就是说 layer 的去噪起点不是随机噪声 ,而是 layer 的去噪结果。这把”跨层多次重启”改成”跨层接力去噪”,在层之间共享去噪进度。
❓ 这等价于把 backbone 的 layer 维度当作 flow matching 的 time 维度的一种”外加积分”——但 backbone hidden state 在不同层语义其实在变(attention 重组),这个 warm-start 的 transferability 凭什么成立?文章没给理论解释,只有经验数字。
Experiments
Setup
- Sim: LIBERO(Spatial / Object / Goal / Long,每 suite 500 trials)+ VLABench(4 个任务,每任务 50 trials)
- Real: 4 个平台(Franka, AgiBot, OpenArm, Dobot-Arm)× 7 类任务,每任务 10 次;额外 RoboChallenge Table30(30 任务,跨 embodiment)
- Pretrain data: DROID, AgiBot, RoboCOIN, RoboMind, GM-100, RoboChallenge + 自采 15,951 条 ARX/Franka/UR5/Agibot 轨迹
- Optimization: AdamW, batch 1024, 200K steps, ViT 冻结, VLM lr=5e-6, head lr=5e-5, cosine annealing
Main Results
Table 1. Simulation benchmarks(成功率 %)
| Model | LIBERO Avg | VLABench Avg |
|---|---|---|
| OpenVLA | 76.5 | 14.5 |
| OpenVLA-OFT | 97.1 | - |
| SmolVLA | 88.8 | - |
| π0 | 94.2 | 42 |
| π0.5 | 96.9 | 49.5 |
| A1 | 96.6 | 53.5 |
A1 在 LIBERO 跟 OpenVLA-OFT、π0.5 同档;在 VLABench 这个更强调 language-conditioned reasoning 的 benchmark 上比 π0.5 高 4 点。
Table 2. Real-world(4 平台 7 任务,成功率 %)
| Model | UR5 stack | UR5 arrange | Franka×4 平均 | AgiBot 平均 | OpenArm 平均 | Dobot 平均 | Mean |
|---|---|---|---|---|---|---|---|
| π0 | 100 | 80 | 30 | 15 | 30 | 80 | 40.8 |
| π0.5 | 80 | 100 | 35 | 35 | 45 | 40 | 47.5 |
| A1 | 100 | 60 | 55 | 80 | 50 | 25 | 56.7 |
值得注意的是 A1 在 AgiBot 平台上 80% vs π0.5 的 35%(“pick glue” + “clean table”),说明 multi-robot 预训练 + 自采数据的 platform-specific tuning 帮助大;但在 Dobot 上反被 π0 / π0.5 超过——可能是 Dobot 数据太少。

Figure 3: 定性对比,第一行 π0.5 经常在多物体之间犹豫或夹持过早,第二行 A1 执行更准。
Table 4. RoboChallenge Table30 mean success(%)
| Model | Mean | Open-source? |
|---|---|---|
| DM0 | 62.00 | 部分 |
| Spirit-v1.5 | 51.00 | 部分 |
| GigaBrain | 51.67 | 部分 |
| π0.5 | 42.67 | 部分 |
| wall-oss | 35.33 | 部分 |
| A1 § | 29.00 | 完全开源 |
| π0 | 28.33 | 部分 |
| X-VLA § | 21.33 | 完全开源 |
| RDT-1B § | 15.00 | 完全开源 |
A1 在所有”完全开源 + 公开数据”模型中排第一(§ 标记),整体 ranking 第六。“先于 π0 0.67 个百分点” 这个差距很小,需要看 standard error 才知道是否真的显著。
Computational Analysis
Molmo-7B:CLIP 2013 GFLOPs + 每层 LLM 323.61 GFLOPs。FM head(Qwen3-400M)每个 timestep 0.493 GFLOPs。
Table 3. 不同 config 的 latency(s)
| CLIP | LLM (L=28) | FM (δ=10) | A1-FM (δ=10) | A1-FM^e (δ=10) | A1-FM^e (δ=2) | |
|---|---|---|---|---|---|---|
| Time (s) | 0.167 | 0.612 | 0.366 | 1.151 | 4.443 | 0.728 |
注意 A1-FM^e (δ=10) = 4.443s 比 A1-FM (δ=10) = 1.151s 还慢——这正是文章想说的 “naive early-exit 反而更慢”。把 δ=2 + warm-start 后才降到 0.728s。
Ablation: Exit criterion c(A1-MLP,Table 5)
| Config | LIBERO Avg | TFLOPs | Inf. time (s) |
|---|---|---|---|
| no exit (full) | 95.8 | 243.0 | 17.5 |
| c=1.0 | 96.6 | 205.0 (-15.6%) | 20.6 |
| c=0.7 | 96.3 | 148.1 (-39.1%) | 16.5 |
| c=0.4 | 94.0 | 100.8 (-58.5%) | 6.8 |
| c=0.1 | 92.3 | 57.0 (-76.6%) | 5.6 |
最有意思的是 c=1.0 比 no-exit 反而更准(96.6 > 95.8)——作者把它解释为 “multi-exit training 让模型自适应选 effective feature”。但这也可能只是 multi-exit supervision 起到了 regularization 作用,跟 early-exit 推理本身无关。
Ablation: Truncated FM warm-start(A1-FM,Table 6)
| c, δ | LIBERO Avg | TFLOPs | Inf. time (s) |
|---|---|---|---|
| no exit, δ=10 | 96.0 | 229.8 | 37.8 |
| 1.0, δ=10 | 96.4 | 150.6 | 40.9 (+7.9%) |
| 1.0, δ=2 (cold start) | 95.4 | 167.9 | 27.5 (-27.4%) |
| 1.0, δ=2 ★ (warm start) | 96.4 | 156.8 | 10.5 (-72.3%) |
| 0.8, δ=2 ★ | 94.6 | 116.8 | 9.0 (-76.3%) |
★ = warm-start。warm-start 把 95.4 → 96.4,同时 27.5s → 10.5s。后者的加速主要来自 “warm-start 让 consistency check 更早通过”,而非 per-layer compute 减少。
Adaptive Exit 可视化

Figure 4: LIBERO-Long task “turn on the stove and put the moka pot on it”,c=0.6,绿色数字是退出层(共 28 层)。简单移动动作多在 layer 3-5 就退;关键的”开灶 / 抓壶”等关键动作走到 layer 17 / 25 才退——印证了 “compute spent only when it changes the action”。
Generalization (LIBERO-Plus, Table 7)
A1-FM 在 LIBERO-Plus(更强 distribution shift)上 zero-shot 75.3% Avg,胜过 OpenVLA-OFT (69.6)、π0 (53.6)、π0-FAST (61.6)。这一项是文章里比较强的结果,说明 multi-robot pretrain + Molmo backbone 的组合有真实迁移收益。
关联工作
基于
- π0: FM action expert 的设计、KV-conditioned prefix attention、Beta 时间采样均沿用
- DeeR-VLA (yue2024): 用 action consistency 触发 early-exit 的思路;A1 的增量是 head 侧的 truncated FM
- Molmo (deitke2024): Backbone 初始化,提供 affordance-aware 表示
对比
- π0 / π0.5 / X-VLA / RDT-1B:RoboChallenge 主要 baseline
- OpenVLA / OpenVLA-OFT:LIBERO baseline
- SmolVLA / TinyVLA / EdgeVLA / EfficientVLA / VLA-Cache:efficient VLA 的同类工作;A1 的差异是 joint backbone+head 加速
- GigaBrain / DM0 / Spirit-v1.5 / wall-oss:RoboChallenge 上更强但未完全开源的 baseline
方法相关
- Flow matching (lipman2023): 生成式建模基础
- A0 (xu2025): 同作者的 affordance-aware hierarchical model,被 A1 反复引用作 affordance prior 的支撑
- LIBERO / VLABench / RoboChallenge:评测 benchmark
- DROID / AgiBot World / RoboCOIN / RoboMind / GM-100:预训练数据源
论文点评
Strengths
- 问题 formulation 清晰且实在:识别出”早退 backbone 反而把瓶颈推给 head”这个具体痛点,并给出对应的 joint 解法。这种”端到端 pipeline 思维” 比单点优化更贴近部署
- Warm-start 跨层去噪:是简洁、可移植、零训练改动的推理 trick——任何 layer-wise FM head 都能直接套
- 诚实的 RoboChallenge 表述:明确说自己是 “在完全开源里排第一” 而非 “整体 SOTA”,§ 标记区分得很清楚。这种 framing 在 VLA 圈算是稀缺
- Multi-exit training 自带 regularization 效果:c=1.0 比 no-exit 更准这一点意外但可重复,对其他 VLA 也可能有借鉴
- 完整开源 stack:训练码 + 数据处理 + intermediate ckpt + 评测脚本 — 是少数真的能复现的 VLA
Weaknesses
- 核心 trick 很像 DeeR-VLA + warm-start:DeeR-VLA 已经做了 dynamic early-exit,A1 的 backbone 侧贡献基本是 reapply;文章的真正增量主要在 inter-layer truncated FM 这一项。Sec. 2.2 已经承认这一点,但没把对比试验做实(缺 DeeR-VLA 的同条件 latency / accuracy 对比)
- Backbone 选 Molmo 没有 ablation:作者反复强调 “Molmo provides affordance prior”,但没跟 PaliGemma / Gemma2-2B 这种常用 VLA backbone 对比。“affordance prior” 在这里是 narrative,不是 evidence
- RoboChallenge 上和 π0 只差 0.67 pp:没有 std / 不同 seed 的报告,很难说统计显著;Table 4 里 A1 在多个任务上其实是 0%(“Make Sand.”、“Plug Cable”、“Sweep”、“Stick Tape”),跟 DM0 / Spirit 差距很大
- Trajectory convergence < 3 步” 没定量证据:作为三大 motivation 之一只用了一句陈述带过
- 没分析 warm-start 失败模式:跨层 hidden state 的语义在变(attention layer 重组),warm-start 总是有效吗?任务越复杂越容易失败吗?文章没给出 break point
- Pipeline 描述有歧义:Sec. 4.2 说 VLM lr = 5e-5,附录 Table 8 说 5e-6 — 内部不一致
可信评估
Artifact 可获取性
- 代码: inference + training(GitHub repo
ATeam-Research/A1公开) - 模型权重: 文中承诺 “intermediate checkpoints” 也会发布,但具体 checkpoint 名称 / 下载 URL 在论文正文未明示,需查 repo
- 训练细节: 完整(Table 8/9 给了 batch / steps / lr / warmup / data aug;唯一不一致是 Sec. 4.2 vs 附录的 VLM lr 数字)
- 数据集: 开源混合 — DROID、AgiBot、RoboCOIN、RoboMind、GM-100、RoboChallenge 都公开;自采 15,951 条 in-house 轨迹未说明是否会 release
Claim 可验证性
- ✅ LIBERO 96.6% / VLABench 53.5%:标准 benchmark + 公开 protocol,复现可行
- ✅ per-episode latency 37.8s → 10.5s:Table 6 自我对比,配 GFLOPs 数字一致
- ✅ RoboChallenge 29.00% > π0 28.33%:第三方 benchmark 公开 leaderboard,可独立验证
- ⚠️ “96.6% > no-exit 95.8%“(c=1.0 反而更准):差距 0.8 pp,没报告 std / 多 seed,可能在噪声范围内
- ⚠️ “Trajectory convergence < 3 步”:作为 motivation 提出但无定量支撑
- ⚠️ “affordance prior from Molmo” 是性能关键:无 backbone ablation,归因不严
- ⚠️ Real-world Table 2 每任务只跑 10 次:±10% 的 std 是常态,“56.7 vs 47.5” 的差距需要更多 seeds 才能信
- ❌ “State-of-the-art VLAs often rely on closed-source data” vs A1 “breaks this paradigm”:DM0 / Spirit / GigaBrain 之外,π0、π0.5、X-VLA、RDT-1B 也都开了源,“breaks paradigm” 是营销修辞
Notes
- A1 这套 “joint backbone + head 截断” 的思想其实可以推广到任何 VLM + diffusion/FM head 的架构,不止 VLA。比如视频生成的 DiT + LLM control 也有同样的 per-step head bottleneck
- Warm-start across layers 这一招值得做个 mechanistic 分析:是因为 layer-wise hidden state 在末段几层确实接近 fixed point,还是 head 学到了对 input 不太敏感的鲁棒去噪?
- 跟 FastdVLM 这类同期 efficient VLA 工作放一起看会更有意思——同期都在攻 latency 这个问题,但切入点各异
- Multi-exit supervision 让 c=1.0 反而更准这个现象,跟 BERT 时代的 deep mutual learning 类似,可能是个 underexplored regularization
- “完全开源” framing 是 A1 在 RoboChallenge 排第六还能讲 story 的关键 — 但学术贡献应该独立于商业 framing 评估,纯方法贡献并不大
Rating
Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=N/A; github 34⭐ / forks=3 / 90d commits=4 / pushed 8d ago
分数:1 - Archived 理由:方法侧实际上是 DeeR-VLA 的 early-exit + π0 的 FM head + “跨层 warm-start” 这个小工程 trick 的组合,Weaknesses 已指出 backbone 选择和 DeeR-VLA 对比都没 ablation,增量单薄;RoboChallenge 整体排第六、与 π0 仅差 0.67pp 且无显著性报告,LIBERO 96.6% 也未压过 OpenVLA-OFT 的 97.1%——既不是 efficient VLA 的必读范式,也非 de facto benchmark。相比 2(Frontier)的”必须比较的 baseline”,A1 更像 “完全开源可复现的参考实现”,属于 niche 工具价值而非方法影响力,因此放到 1 档;若后续社区把 inter-layer warm-start 抽成通用 recipe 被多篇工作采纳,可上调至 2。