Summary

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated VLA

  • 核心: 一个完全开源的 VLA,目标是在不损失成功率的前提下,把 VLM backbone 和 flow-matching action head 的推理成本一起砍掉
  • 方法: (1) 训练时多层共享 action head + 多层 supervision;(2) 推理时用 layer 间 action consistency 触发 early-exit;(3) Inter-Layer Truncated Flow Matching:每层只跑 δ=2 步去噪,并把上一层去噪结果作为下一层 warm-start 而非随机噪声
  • 结果: LIBERO 96.6%、VLABench 53.5%、real-world 4 平台均值 56.7%、RoboChallenge 29.00%(>π0 的 28.33%);FM 推理在 LIBERO 上 37.8s → 10.5s/episode(-72%),backbone 计算可减 76.6% 而精度只掉 1.7%
  • Sources: paper | website | github
  • Rating: 1 - Archived(核心增量(inter-layer warm-start FM)是 DeeR-VLA + π0 的工程化组合,RoboChallenge 整体排第六、与 π0 仅差 0.67pp 且无显著性,缺 backbone/baseline ablation,“完全开源” framing 多于方法贡献)

Key Takeaways:

  1. Joint backbone + head 加速:以前的 efficient VLA 工作(EdgeVLA、EfficientVLA、DeeR-VLA 等)要么只压 VLM 要么只压 head,A1 的关键观察是:当 VLM 早退后,flow-matching head 在每个候选 exit 都要跑 δ 步,反而成为新瓶颈——因此必须同时截断两侧
  2. Warm-start across layers:把 layer i 的去噪输出当作 layer i+1 去噪的初始条件(而非重新采高斯噪声),这样 δ=2 也能保持精度,是这篇文章相对 DeeR-VLA 的核心增量
  3. Action consistency = exit signal:用相邻层 action chunk 的差异(cosine / L2 / MAD)触发早退,threshold 用训练集 quantile + 一个 exponential exit_distribution 离线标定,简单且可调 budget
  4. 完全开源 vs. SOTA 之间的 trade-off:在 RoboChallenge 上排第六(DM0 62%、Spirit 51%、GigaBrain 51.67% 都比 A1 强),但在所有”完全开源 + 公开数据”的方法里排第一——文章的”transparency” 立意远比”绝对 SOTA” 立意诚实
  5. Backbone 用 Molmo-7B,head 用 Qwen3-400M FM:Molmo 提供 affordance prior 的说法重复了作者自己的 A0 论文(xu2025a0),但本文没做 ablation 比较 Molmo vs PaliGemma 之类的 backbone 选择是否真的关键

Teaser. A1 的整体架构与训练 / 推理 pipeline。

Figure 1: VLM backbone(Molmo)+ 两种 action head(Flow Matching 或 MLP),训练时所有中间层都接同一个 shared action head 做 supervision;推理时根据 budget-aware exit criterion 选择某一层早退,FM head 在每层只跑少量去噪步并跨层 warm-start。


Background & Motivation

VLA 的部署成本来自两部分:

  1. Backbone 大:billion-scale VLM(π0π0.5、wall-oss 等都是这个量级)
  2. Action head 慢:flow-matching / diffusion 通常需要 10-20 步迭代去噪

之前的 efficient VLA 工作(EdgeVLA、FAST、EfficientVLA、TinyVLA、SmolVLA 等)大多只压一边,而 DeeR-VLA 虽然用 early-exit 压 backbone,但没处理 head 的 per-layer 重复开销。A1 的论点是:当你早退时 head 也得在每个候选 exit 处跑一遍,原本不显眼的 head 反而变成新瓶颈——所以必须 joint。

三个支撑这个设计的经验观察(Sec. 1):

  1. Trajectory convergence: flow-matching 通常 < 3 步就锁定到正确 mode
  2. Action redundancy: 相邻控制 step 的动作变化很小
  3. Layer-wise coupling: VLM 的中间层 hidden state 已经够指导 action 预测

❓ 第 1 点(“FM 3 步就收敛”)是否依赖任务难度?文章没给 trajectory convergence 的定量证据,只是经验陈述。


Method

架构

  • VLM backbone: Molmo-7B(CLIP/SigLIP vision encoder + 28-layer Qwen2-7B),权重从 Molmo 初始化以继承 affordance prior
  • Action head:两个变体
    • A1-FM:基于 Qwen3-400M 的 flow-matching expert,通过 KV-conditioned self-attention 接 prefix;学习 conditional vector field,推理时用 forward Euler 积分 τ ∈ [0,1]
    • A1-MLP:在输入加 special action query token,hidden state 直接经 MLP 输出连续动作,L1 loss 监督

输入: (多视角图 + proprioception)+ 语言指令
输出: action chunk

Equation 1. FM 训练目标(conditional flow matching loss)

其中 noisy action ,target vector field 从偏向 noisy 端的 Beta 分布采样(沿用 π0)。

Multi-Layer Supervision(训练侧)

训练时随机采样层索引 ,把 layer 的 hidden state 喂进 shared action head 算 loss 。也可以”对所有 L 层都监督”以更稳定。这样 head 学会 graceful degradation——不论 backbone 跑到哪层都能输出合理动作。

Figure 2: 训练时所有层共享同一个 action head 并被同时 supervise;推理时根据 exit criterion c 决定在哪层退出,FM head 用 inter-layer warm-start 加速。

Early-Termination via Action Consistency(推理侧 — backbone)

Equation 2. Exit condition

可选 cosine / L2 / mean absolute deviation。Threshold 离线标定:

  1. 在训练集上 forward 一遍,收集每层 action discrepancy 矩阵
  2. 把目标 budget 转成 exit 概率分布 (exponential 默认;也支持 Gaussian / Gamma), 是 exit_criterion
  3. 从早层到晚层依次取未被分配样本-quantile 作为 ,最后一层 兜底

❓ 这个 calibration 隐含假设:测试分布与训练集 discrepancy 分布一致。在 LIBERO-Plus 这种 distribution shift 场景下,threshold 还会不会触发合理的 exit?文章没分析。

Inter-Layer Truncated Flow Matching(推理侧 — head)

这是文章的核心增量。Naive 做法是 “每层 exit 候选都跑 δ=10 步去噪”,但这样 head 反而成为瓶颈。A1 的做法:

  1. 把 δ 设成很小的值(如 2)
  2. 跨层 warm-start

Equation 3. Warm-start across layers

也就是说 layer 的去噪起点不是随机噪声 ,而是 layer 的去噪结果。这把”跨层多次重启”改成”跨层接力去噪”,在层之间共享去噪进度。

❓ 这等价于把 backbone 的 layer 维度当作 flow matching 的 time 维度的一种”外加积分”——但 backbone hidden state 在不同层语义其实在变(attention 重组),这个 warm-start 的 transferability 凭什么成立?文章没给理论解释,只有经验数字。


Experiments

Setup

  • Sim: LIBERO(Spatial / Object / Goal / Long,每 suite 500 trials)+ VLABench(4 个任务,每任务 50 trials)
  • Real: 4 个平台(Franka, AgiBot, OpenArm, Dobot-Arm)× 7 类任务,每任务 10 次;额外 RoboChallenge Table30(30 任务,跨 embodiment)
  • Pretrain data: DROID, AgiBot, RoboCOIN, RoboMind, GM-100, RoboChallenge + 自采 15,951 条 ARX/Franka/UR5/Agibot 轨迹
  • Optimization: AdamW, batch 1024, 200K steps, ViT 冻结, VLM lr=5e-6, head lr=5e-5, cosine annealing

Main Results

Table 1. Simulation benchmarks(成功率 %)

ModelLIBERO AvgVLABench Avg
OpenVLA76.514.5
OpenVLA-OFT97.1-
SmolVLA88.8-
π094.242
π0.596.949.5
A196.653.5

A1 在 LIBERO 跟 OpenVLA-OFT、π0.5 同档;在 VLABench 这个更强调 language-conditioned reasoning 的 benchmark 上比 π0.5 高 4 点。

Table 2. Real-world(4 平台 7 任务,成功率 %)

ModelUR5 stackUR5 arrangeFranka×4 平均AgiBot 平均OpenArm 平均Dobot 平均Mean
π0100803015308040.8
π0.5801003535454047.5
A1100605580502556.7

值得注意的是 A1 在 AgiBot 平台上 80% vs π0.5 的 35%(“pick glue” + “clean table”),说明 multi-robot 预训练 + 自采数据的 platform-specific tuning 帮助大;但在 Dobot 上反被 π0 / π0.5 超过——可能是 Dobot 数据太少。

Figure 3: 定性对比,第一行 π0.5 经常在多物体之间犹豫或夹持过早,第二行 A1 执行更准。

Table 4. RoboChallenge Table30 mean success(%)

ModelMeanOpen-source?
DM062.00部分
Spirit-v1.551.00部分
GigaBrain51.67部分
π0.542.67部分
wall-oss35.33部分
A1 §29.00完全开源
π028.33部分
X-VLA §21.33完全开源
RDT-1B §15.00完全开源

A1 在所有”完全开源 + 公开数据”模型中排第一(§ 标记),整体 ranking 第六。“先于 π0 0.67 个百分点” 这个差距很小,需要看 standard error 才知道是否真的显著。

Computational Analysis

Molmo-7B:CLIP 2013 GFLOPs + 每层 LLM 323.61 GFLOPs。FM head(Qwen3-400M)每个 timestep 0.493 GFLOPs。

Table 3. 不同 config 的 latency(s)

CLIPLLM (L=28)FM (δ=10)A1-FM (δ=10)A1-FM^e (δ=10)A1-FM^e (δ=2)
Time (s)0.1670.6120.3661.1514.4430.728

注意 A1-FM^e (δ=10) = 4.443sA1-FM (δ=10) = 1.151s 还慢——这正是文章想说的 “naive early-exit 反而更慢”。把 δ=2 + warm-start 后才降到 0.728s。

Ablation: Exit criterion c(A1-MLP,Table 5)

ConfigLIBERO AvgTFLOPsInf. time (s)
no exit (full)95.8243.017.5
c=1.096.6205.0 (-15.6%)20.6
c=0.796.3148.1 (-39.1%)16.5
c=0.494.0100.8 (-58.5%)6.8
c=0.192.357.0 (-76.6%)5.6

最有意思的是 c=1.0 比 no-exit 反而更准(96.6 > 95.8)——作者把它解释为 “multi-exit training 让模型自适应选 effective feature”。但这也可能只是 multi-exit supervision 起到了 regularization 作用,跟 early-exit 推理本身无关。

Ablation: Truncated FM warm-start(A1-FM,Table 6)

c, δLIBERO AvgTFLOPsInf. time (s)
no exit, δ=1096.0229.837.8
1.0, δ=1096.4150.640.9 (+7.9%)
1.0, δ=2 (cold start)95.4167.927.5 (-27.4%)
1.0, δ=2 ★ (warm start)96.4156.810.5 (-72.3%)
0.8, δ=2 ★94.6116.89.0 (-76.3%)

★ = warm-start。warm-start 把 95.4 → 96.4,同时 27.5s → 10.5s。后者的加速主要来自 “warm-start 让 consistency check 更早通过”,而非 per-layer compute 减少。

Adaptive Exit 可视化

Figure 4: LIBERO-Long task “turn on the stove and put the moka pot on it”,c=0.6,绿色数字是退出层(共 28 层)。简单移动动作多在 layer 3-5 就退;关键的”开灶 / 抓壶”等关键动作走到 layer 17 / 25 才退——印证了 “compute spent only when it changes the action”。

Generalization (LIBERO-Plus, Table 7)

A1-FM 在 LIBERO-Plus(更强 distribution shift)上 zero-shot 75.3% Avg,胜过 OpenVLA-OFT (69.6)、π0 (53.6)、π0-FAST (61.6)。这一项是文章里比较强的结果,说明 multi-robot pretrain + Molmo backbone 的组合有真实迁移收益。


关联工作

基于

  • π0: FM action expert 的设计、KV-conditioned prefix attention、Beta 时间采样均沿用
  • DeeR-VLA (yue2024): 用 action consistency 触发 early-exit 的思路;A1 的增量是 head 侧的 truncated FM
  • Molmo (deitke2024): Backbone 初始化,提供 affordance-aware 表示

对比

  • π0 / π0.5 / X-VLA / RDT-1B:RoboChallenge 主要 baseline
  • OpenVLA / OpenVLA-OFT:LIBERO baseline
  • SmolVLA / TinyVLA / EdgeVLA / EfficientVLA / VLA-Cache:efficient VLA 的同类工作;A1 的差异是 joint backbone+head 加速
  • GigaBrain / DM0 / Spirit-v1.5 / wall-oss:RoboChallenge 上更强但未完全开源的 baseline

方法相关

  • Flow matching (lipman2023): 生成式建模基础
  • A0 (xu2025): 同作者的 affordance-aware hierarchical model,被 A1 反复引用作 affordance prior 的支撑
  • LIBERO / VLABench / RoboChallenge:评测 benchmark
  • DROID / AgiBot World / RoboCOIN / RoboMind / GM-100:预训练数据源

论文点评

Strengths

  1. 问题 formulation 清晰且实在:识别出”早退 backbone 反而把瓶颈推给 head”这个具体痛点,并给出对应的 joint 解法。这种”端到端 pipeline 思维” 比单点优化更贴近部署
  2. Warm-start 跨层去噪:是简洁、可移植、零训练改动的推理 trick——任何 layer-wise FM head 都能直接套
  3. 诚实的 RoboChallenge 表述:明确说自己是 “在完全开源里排第一” 而非 “整体 SOTA”,§ 标记区分得很清楚。这种 framing 在 VLA 圈算是稀缺
  4. Multi-exit training 自带 regularization 效果:c=1.0 比 no-exit 更准这一点意外但可重复,对其他 VLA 也可能有借鉴
  5. 完整开源 stack:训练码 + 数据处理 + intermediate ckpt + 评测脚本 — 是少数真的能复现的 VLA

Weaknesses

  1. 核心 trick 很像 DeeR-VLA + warm-start:DeeR-VLA 已经做了 dynamic early-exit,A1 的 backbone 侧贡献基本是 reapply;文章的真正增量主要在 inter-layer truncated FM 这一项。Sec. 2.2 已经承认这一点,但没把对比试验做实(缺 DeeR-VLA 的同条件 latency / accuracy 对比)
  2. Backbone 选 Molmo 没有 ablation:作者反复强调 “Molmo provides affordance prior”,但没跟 PaliGemma / Gemma2-2B 这种常用 VLA backbone 对比。“affordance prior” 在这里是 narrative,不是 evidence
  3. RoboChallenge 上和 π0 只差 0.67 pp:没有 std / 不同 seed 的报告,很难说统计显著;Table 4 里 A1 在多个任务上其实是 0%(“Make Sand.”、“Plug Cable”、“Sweep”、“Stick Tape”),跟 DM0 / Spirit 差距很大
  4. Trajectory convergence < 3 步” 没定量证据:作为三大 motivation 之一只用了一句陈述带过
  5. 没分析 warm-start 失败模式:跨层 hidden state 的语义在变(attention layer 重组),warm-start 总是有效吗?任务越复杂越容易失败吗?文章没给出 break point
  6. Pipeline 描述有歧义:Sec. 4.2 说 VLM lr = 5e-5,附录 Table 8 说 5e-6 — 内部不一致

可信评估

Artifact 可获取性

  • 代码: inference + training(GitHub repo ATeam-Research/A1 公开)
  • 模型权重: 文中承诺 “intermediate checkpoints” 也会发布,但具体 checkpoint 名称 / 下载 URL 在论文正文未明示,需查 repo
  • 训练细节: 完整(Table 8/9 给了 batch / steps / lr / warmup / data aug;唯一不一致是 Sec. 4.2 vs 附录的 VLM lr 数字)
  • 数据集: 开源混合 — DROID、AgiBot、RoboCOIN、RoboMind、GM-100、RoboChallenge 都公开;自采 15,951 条 in-house 轨迹未说明是否会 release

Claim 可验证性

  • LIBERO 96.6% / VLABench 53.5%:标准 benchmark + 公开 protocol,复现可行
  • per-episode latency 37.8s → 10.5s:Table 6 自我对比,配 GFLOPs 数字一致
  • RoboChallenge 29.00% > π0 28.33%:第三方 benchmark 公开 leaderboard,可独立验证
  • ⚠️ “96.6% > no-exit 95.8%“(c=1.0 反而更准):差距 0.8 pp,没报告 std / 多 seed,可能在噪声范围内
  • ⚠️ “Trajectory convergence < 3 步”:作为 motivation 提出但无定量支撑
  • ⚠️ “affordance prior from Molmo” 是性能关键:无 backbone ablation,归因不严
  • ⚠️ Real-world Table 2 每任务只跑 10 次:±10% 的 std 是常态,“56.7 vs 47.5” 的差距需要更多 seeds 才能信
  • “State-of-the-art VLAs often rely on closed-source data” vs A1 “breaks this paradigm”:DM0 / Spirit / GigaBrain 之外,π0、π0.5、X-VLA、RDT-1B 也都开了源,“breaks paradigm” 是营销修辞

Notes

  • A1 这套 “joint backbone + head 截断” 的思想其实可以推广到任何 VLM + diffusion/FM head 的架构,不止 VLA。比如视频生成的 DiT + LLM control 也有同样的 per-step head bottleneck
  • Warm-start across layers 这一招值得做个 mechanistic 分析:是因为 layer-wise hidden state 在末段几层确实接近 fixed point,还是 head 学到了对 input 不太敏感的鲁棒去噪?
  • FastdVLM 这类同期 efficient VLA 工作放一起看会更有意思——同期都在攻 latency 这个问题,但切入点各异
  • Multi-exit supervision 让 c=1.0 反而更准这个现象,跟 BERT 时代的 deep mutual learning 类似,可能是个 underexplored regularization
  • “完全开源” framing 是 A1 在 RoboChallenge 排第六还能讲 story 的关键 — 但学术贡献应该独立于商业 framing 评估,纯方法贡献并不大

Rating

Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=N/A; github 34⭐ / forks=3 / 90d commits=4 / pushed 8d ago

分数:1 - Archived 理由:方法侧实际上是 DeeR-VLA 的 early-exit + π0 的 FM head + “跨层 warm-start” 这个小工程 trick 的组合,Weaknesses 已指出 backbone 选择和 DeeR-VLA 对比都没 ablation,增量单薄;RoboChallenge 整体排第六、与 π0 仅差 0.67pp 且无显著性报告,LIBERO 96.6% 也未压过 OpenVLA-OFT 的 97.1%——既不是 efficient VLA 的必读范式,也非 de facto benchmark。相比 2(Frontier)的”必须比较的 baseline”,A1 更像 “完全开源可复现的参考实现”,属于 niche 工具价值而非方法影响力,因此放到 1 档;若后续社区把 inter-layer warm-start 抽成通用 recipe 被多篇工作采纳,可上调至 2。