A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

Summary

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated VLA

核心: 一个完全开源的 VLA，目标是在不损失成功率的前提下，把 VLM backbone 和 flow-matching action head 的推理成本一起砍掉

方法: (1) 训练时多层共享 action head + 多层 supervision；(2) 推理时用 layer 间 action consistency 触发 early-exit；(3) Inter-Layer Truncated Flow Matching：每层只跑 δ=2 步去噪，并把上一层去噪结果作为下一层 warm-start 而非随机噪声

结果: LIBERO 96.6%、VLABench 53.5%、real-world 4 平台均值 56.7%、RoboChallenge 29.00%（>π0 的 28.33%）；FM 推理在 LIBERO 上 37.8s → 10.5s/episode（-72%），backbone 计算可减 76.6% 而精度只掉 1.7%

Sources: paper | website | github

Rating: 1 - Archived（核心增量（inter-layer warm-start FM）是 DeeR-VLA + π0 的工程化组合，RoboChallenge 整体排第六、与 π0 仅差 0.67pp 且无显著性，缺 backbone/baseline ablation，“完全开源” framing 多于方法贡献）

Key Takeaways:

Joint backbone + head 加速：以前的 efficient VLA 工作（EdgeVLA、EfficientVLA、DeeR-VLA 等）要么只压 VLM 要么只压 head，A1 的关键观察是：当 VLM 早退后，flow-matching head 在每个候选 exit 都要跑 δ 步，反而成为新瓶颈——因此必须同时截断两侧
Warm-start across layers：把 layer i 的去噪输出当作 layer i+1 去噪的初始条件（而非重新采高斯噪声），这样 δ=2 也能保持精度，是这篇文章相对 DeeR-VLA 的核心增量
Action consistency = exit signal：用相邻层 action chunk 的差异（cosine / L2 / MAD）触发早退，threshold 用训练集 quantile + 一个 exponential exit_distribution 离线标定，简单且可调 budget
完全开源 vs. SOTA 之间的 trade-off：在 RoboChallenge 上排第六（DM0 62%、Spirit 51%、GigaBrain 51.67% 都比 A1 强），但在所有”完全开源 + 公开数据”的方法里排第一——文章的”transparency” 立意远比”绝对 SOTA” 立意诚实
Backbone 用 Molmo-7B，head 用 Qwen3-400M FM：Molmo 提供 affordance prior 的说法重复了作者自己的 A0 论文（xu2025a0），但本文没做 ablation 比较 Molmo vs PaliGemma 之类的 backbone 选择是否真的关键

Teaser. A1 的整体架构与训练 / 推理 pipeline。

Figure 1: VLM backbone（Molmo）+ 两种 action head（Flow Matching 或 MLP），训练时所有中间层都接同一个 shared action head 做 supervision；推理时根据 budget-aware exit criterion 选择某一层早退，FM head 在每层只跑少量去噪步并跨层 warm-start。

Background & Motivation

VLA 的部署成本来自两部分：

Backbone 大：billion-scale VLM（π0、π0.5、wall-oss 等都是这个量级）
Action head 慢：flow-matching / diffusion 通常需要 10-20 步迭代去噪

之前的 efficient VLA 工作（EdgeVLA、FAST、EfficientVLA、TinyVLA、SmolVLA 等）大多只压一边，而 DeeR-VLA 虽然用 early-exit 压 backbone，但没处理 head 的 per-layer 重复开销。A1 的论点是：当你早退时 head 也得在每个候选 exit 处跑一遍，原本不显眼的 head 反而变成新瓶颈——所以必须 joint。

三个支撑这个设计的经验观察（Sec. 1）：

Trajectory convergence: flow-matching 通常 < 3 步就锁定到正确 mode
Action redundancy: 相邻控制 step 的动作变化很小
Layer-wise coupling: VLM 的中间层 hidden state 已经够指导 action 预测

❓ 第 1 点（“FM 3 步就收敛”）是否依赖任务难度？文章没给 trajectory convergence 的定量证据，只是经验陈述。

Method

架构

VLM backbone: Molmo-7B（CLIP/SigLIP vision encoder + 28-layer Qwen2-7B），权重从 Molmo 初始化以继承 affordance prior
Action head：两个变体
- A1-FM：基于 Qwen3-400M 的 flow-matching expert，通过 KV-conditioned self-attention 接 prefix；学习 conditional vector field，推理时用 forward Euler 积分 τ ∈ [0,1]
- A1-MLP：在输入加 special action query token，hidden state 直接经 MLP 输出连续动作，L1 loss 监督

输入: $o_{t} = [I_{t}^{1}, \dots, I_{t}^{n}, q_{t}]$ （多视角图 + proprioception）+ 语言指令 $ℓ$
输出: action chunk $A_{t} = [a_{t}, \dots, a_{t + H}] \in R^{H \times D}$

Equation 1. FM 训练目标（conditional flow matching loss）

L^{τ} (θ) = E_{p (A_{t} ∣ o_{t}), q (A_{t}^{τ} ∣ A_{t})} ∥ v_{θ} (A_{t}^{τ}, o_{t}) - u (A_{t}^{τ} ∣ A_{t}) ∥^{2}

其中 noisy action $A_{t}^{τ} = τ A_{t} + (1 - τ) ϵ$ ，target vector field $u = ϵ - A_{t}$ ， $τ$ 从偏向 noisy 端的 Beta 分布采样（沿用 π0）。

Multi-Layer Supervision（训练侧）

训练时随机采样层索引 $i \sim U (0, L)$ ，把 layer $i$ 的 hidden state 喂进 shared action head 算 loss $L^{(i)}$ 。也可以”对所有 L 层都监督”以更稳定。这样 head 学会 graceful degradation——不论 backbone 跑到哪层都能输出合理动作。

Figure 2: 训练时所有层共享同一个 action head 并被同时 supervise；推理时根据 exit criterion c 决定在哪层退出，FM head 用 inter-layer warm-start 加速。

Early-Termination via Action Consistency（推理侧 — backbone）

Equation 2. Exit condition

Δ_{t}^{i} = d (A_{t}^{(i)}, A_{t}^{(i - 1)}) < η_{i}

$d (\cdot, \cdot)$ 可选 cosine / L2 / mean absolute deviation。Threshold $η_{i}$ 离线标定：

在训练集上 forward 一遍，收集每层 action discrepancy 矩阵 $V \in R^{K \times N}$
把目标 budget 转成 exit 概率分布 $p_{k} \propto ρ^{k}$ （exponential 默认；也支持 Gaussian / Gamma）， $ρ = c$ 是 exit_criterion
从早层到晚层依次取未被分配样本的 $p_{k}$ -quantile 作为 $η_{i_{k}}$ ，最后一层 $η_{i_{K}} = + \infty$ 兜底

❓ 这个 calibration 隐含假设：测试分布与训练集 discrepancy 分布一致。在 LIBERO-Plus 这种 distribution shift 场景下，threshold 还会不会触发合理的 exit？文章没分析。

Inter-Layer Truncated Flow Matching（推理侧 — head）

这是文章的核心增量。Naive 做法是 “每层 exit 候选都跑 δ=10 步去噪”，但这样 head 反而成为瓶颈。A1 的做法：

把 δ 设成很小的值（如 2）
跨层 warm-start：

Equation 3. Warm-start across layers

A_{t}^{0 (i + 1)} = A_{t}^{1 (i)}

也就是说 layer $i + 1$ 的去噪起点不是随机噪声 $N (0, I)$ ，而是 layer $i$ 的去噪结果。这把”跨层多次重启”改成”跨层接力去噪”，在层之间共享去噪进度。

❓ 这等价于把 backbone 的 layer 维度当作 flow matching 的 time 维度的一种”外加积分”——但 backbone hidden state 在不同层语义其实在变（attention 重组），这个 warm-start 的 transferability 凭什么成立？文章没给理论解释，只有经验数字。

Experiments

Setup

Sim: LIBERO（Spatial / Object / Goal / Long，每 suite 500 trials）+ VLABench（4 个任务，每任务 50 trials）
Real: 4 个平台（Franka, AgiBot, OpenArm, Dobot-Arm）× 7 类任务，每任务 10 次；额外 RoboChallenge Table30（30 任务，跨 embodiment）
Pretrain data: DROID, AgiBot, RoboCOIN, RoboMind, GM-100, RoboChallenge + 自采 15,951 条 ARX/Franka/UR5/Agibot 轨迹
Optimization: AdamW, batch 1024, 200K steps, ViT 冻结, VLM lr=5e-6, head lr=5e-5, cosine annealing

Main Results

Table 1. Simulation benchmarks（成功率 %）

Model	LIBERO Avg	VLABench Avg
OpenVLA	76.5	14.5
OpenVLA-OFT	97.1	-
SmolVLA	88.8	-
π0	94.2	42
π0.5	96.9	49.5
A1	96.6	53.5

A1 在 LIBERO 跟 OpenVLA-OFT、π0.5 同档；在 VLABench 这个更强调 language-conditioned reasoning 的 benchmark 上比 π0.5 高 4 点。

Table 2. Real-world（4 平台 7 任务，成功率 %）

Model	UR5 stack	UR5 arrange	Franka×4 平均	AgiBot 平均	OpenArm 平均	Dobot 平均	Mean
π0	100	80	30	15	30	80	40.8
π0.5	80	100	35	35	45	40	47.5
A1	100	60	55	80	50	25	56.7

值得注意的是 A1 在 AgiBot 平台上 80% vs π0.5 的 35%（“pick glue” + “clean table”），说明 multi-robot 预训练 + 自采数据的 platform-specific tuning 帮助大；但在 Dobot 上反被 π0 / π0.5 超过——可能是 Dobot 数据太少。

Figure 3: 定性对比，第一行 π0.5 经常在多物体之间犹豫或夹持过早，第二行 A1 执行更准。

Table 4. RoboChallenge Table30 mean success（%）

Model	Mean	Open-source?
DM0	62.00	部分
Spirit-v1.5	51.00	部分
GigaBrain	51.67	部分
π0.5	42.67	部分
wall-oss	35.33	部分
A1 §	29.00	完全开源
π0	28.33	部分
X-VLA §	21.33	完全开源
RDT-1B §	15.00	完全开源

A1 在所有”完全开源 + 公开数据”模型中排第一（§ 标记），整体 ranking 第六。“先于 π0 0.67 个百分点” 这个差距很小，需要看 standard error 才知道是否真的显著。

Computational Analysis

Molmo-7B：CLIP 2013 GFLOPs + 每层 LLM 323.61 GFLOPs。FM head（Qwen3-400M）每个 timestep 0.493 GFLOPs。

Table 3. 不同 config 的 latency（s）

	CLIP	LLM (L=28)	FM (δ=10)	A1-FM (δ=10)	A1-FM^e (δ=10)	A1-FM^e (δ=2)
Time (s)	0.167	0.612	0.366	1.151	4.443	0.728

注意 A1-FM^e (δ=10) = 4.443s 比 A1-FM (δ=10) = 1.151s 还慢——这正是文章想说的 “naive early-exit 反而更慢”。把 δ=2 + warm-start 后才降到 0.728s。

Ablation: Exit criterion c（A1-MLP，Table 5）

Config	LIBERO Avg	TFLOPs	Inf. time (s)
no exit (full)	95.8	243.0	17.5
c=1.0	96.6	205.0 (-15.6%)	20.6
c=0.7	96.3	148.1 (-39.1%)	16.5
c=0.4	94.0	100.8 (-58.5%)	6.8
c=0.1	92.3	57.0 (-76.6%)	5.6

最有意思的是 c=1.0 比 no-exit 反而更准（96.6 > 95.8）——作者把它解释为 “multi-exit training 让模型自适应选 effective feature”。但这也可能只是 multi-exit supervision 起到了 regularization 作用，跟 early-exit 推理本身无关。

Ablation: Truncated FM warm-start（A1-FM，Table 6）

c, δ	LIBERO Avg	TFLOPs	Inf. time (s)
no exit, δ=10	96.0	229.8	37.8
1.0, δ=10	96.4	150.6	40.9 (+7.9%)
1.0, δ=2 (cold start)	95.4	167.9	27.5 (-27.4%)
1.0, δ=2 ★ (warm start)	96.4	156.8	10.5 (-72.3%)
0.8, δ=2 ★	94.6	116.8	9.0 (-76.3%)

★ = warm-start。warm-start 把 95.4 → 96.4，同时 27.5s → 10.5s。后者的加速主要来自 “warm-start 让 consistency check 更早通过”，而非 per-layer compute 减少。

Adaptive Exit 可视化

Figure 4: LIBERO-Long task “turn on the stove and put the moka pot on it”，c=0.6，绿色数字是退出层（共 28 层）。简单移动动作多在 layer 3-5 就退；关键的”开灶 / 抓壶”等关键动作走到 layer 17 / 25 才退——印证了 “compute spent only when it changes the action”。

Generalization (LIBERO-Plus, Table 7)

A1-FM 在 LIBERO-Plus（更强 distribution shift）上 zero-shot 75.3% Avg，胜过 OpenVLA-OFT (69.6)、π0 (53.6)、π0-FAST (61.6)。这一项是文章里比较强的结果，说明 multi-robot pretrain + Molmo backbone 的组合有真实迁移收益。

关联工作

基于

π0: FM action expert 的设计、KV-conditioned prefix attention、Beta 时间采样均沿用
DeeR-VLA (yue2024): 用 action consistency 触发 early-exit 的思路；A1 的增量是 head 侧的 truncated FM
Molmo (deitke2024): Backbone 初始化，提供 affordance-aware 表示

对比

π0 / π0.5 / X-VLA / RDT-1B：RoboChallenge 主要 baseline
OpenVLA / OpenVLA-OFT：LIBERO baseline
SmolVLA / TinyVLA / EdgeVLA / EfficientVLA / VLA-Cache：efficient VLA 的同类工作；A1 的差异是 joint backbone+head 加速
GigaBrain / DM0 / Spirit-v1.5 / wall-oss：RoboChallenge 上更强但未完全开源的 baseline

方法相关

Flow matching (lipman2023): 生成式建模基础
A0 (xu2025): 同作者的 affordance-aware hierarchical model，被 A1 反复引用作 affordance prior 的支撑
LIBERO / VLABench / RoboChallenge：评测 benchmark
DROID / AgiBot World / RoboCOIN / RoboMind / GM-100：预训练数据源

论文点评

Strengths

问题 formulation 清晰且实在：识别出”早退 backbone 反而把瓶颈推给 head”这个具体痛点，并给出对应的 joint 解法。这种”端到端 pipeline 思维” 比单点优化更贴近部署
Warm-start 跨层去噪：是简洁、可移植、零训练改动的推理 trick——任何 layer-wise FM head 都能直接套
诚实的 RoboChallenge 表述：明确说自己是 “在完全开源里排第一” 而非 “整体 SOTA”，§ 标记区分得很清楚。这种 framing 在 VLA 圈算是稀缺
Multi-exit training 自带 regularization 效果：c=1.0 比 no-exit 更准这一点意外但可重复，对其他 VLA 也可能有借鉴
完整开源 stack：训练码 + 数据处理 + intermediate ckpt + 评测脚本 — 是少数真的能复现的 VLA

Weaknesses

核心 trick 很像 DeeR-VLA + warm-start：DeeR-VLA 已经做了 dynamic early-exit，A1 的 backbone 侧贡献基本是 reapply；文章的真正增量主要在 inter-layer truncated FM 这一项。Sec. 2.2 已经承认这一点，但没把对比试验做实（缺 DeeR-VLA 的同条件 latency / accuracy 对比）
Backbone 选 Molmo 没有 ablation：作者反复强调 “Molmo provides affordance prior”，但没跟 PaliGemma / Gemma2-2B 这种常用 VLA backbone 对比。“affordance prior” 在这里是 narrative，不是 evidence
RoboChallenge 上和 π0 只差 0.67 pp：没有 std / 不同 seed 的报告，很难说统计显著；Table 4 里 A1 在多个任务上其实是 0%（“Make Sand.”、“Plug Cable”、“Sweep”、“Stick Tape”），跟 DM0 / Spirit 差距很大
Trajectory convergence < 3 步” 没定量证据：作为三大 motivation 之一只用了一句陈述带过
没分析 warm-start 失败模式：跨层 hidden state 的语义在变（attention layer 重组），warm-start 总是有效吗？任务越复杂越容易失败吗？文章没给出 break point
Pipeline 描述有歧义：Sec. 4.2 说 VLM lr = 5e-5，附录 Table 8 说 5e-6 — 内部不一致

可信评估

Artifact 可获取性

代码: inference + training（GitHub repo ATeam-Research/A1 公开）
模型权重: 文中承诺 “intermediate checkpoints” 也会发布，但具体 checkpoint 名称 / 下载 URL 在论文正文未明示，需查 repo
训练细节: 完整（Table 8/9 给了 batch / steps / lr / warmup / data aug；唯一不一致是 Sec. 4.2 vs 附录的 VLM lr 数字）
数据集: 开源混合 — DROID、AgiBot、RoboCOIN、RoboMind、GM-100、RoboChallenge 都公开；自采 15,951 条 in-house 轨迹未说明是否会 release

Claim 可验证性

✅ LIBERO 96.6% / VLABench 53.5%：标准 benchmark + 公开 protocol，复现可行
✅ per-episode latency 37.8s → 10.5s：Table 6 自我对比，配 GFLOPs 数字一致
✅ RoboChallenge 29.00% > π0 28.33%：第三方 benchmark 公开 leaderboard，可独立验证
⚠️ “96.6% > no-exit 95.8%“（c=1.0 反而更准）：差距 0.8 pp，没报告 std / 多 seed，可能在噪声范围内
⚠️ “Trajectory convergence < 3 步”：作为 motivation 提出但无定量支撑
⚠️ “affordance prior from Molmo” 是性能关键：无 backbone ablation，归因不严
⚠️ Real-world Table 2 每任务只跑 10 次：±10% 的 std 是常态，“56.7 vs 47.5” 的差距需要更多 seeds 才能信
❌ “State-of-the-art VLAs often rely on closed-source data” vs A1 “breaks this paradigm”：DM0 / Spirit / GigaBrain 之外，π0、π0.5、X-VLA、RDT-1B 也都开了源，“breaks paradigm” 是营销修辞

Notes

A1 这套 “joint backbone + head 截断” 的思想其实可以推广到任何 VLM + diffusion/FM head 的架构，不止 VLA。比如视频生成的 DiT + LLM control 也有同样的 per-step head bottleneck
Warm-start across layers 这一招值得做个 mechanistic 分析：是因为 layer-wise hidden state 在末段几层确实接近 fixed point，还是 head 学到了对 input 不太敏感的鲁棒去噪？
跟 FastdVLM 这类同期 efficient VLA 工作放一起看会更有意思——同期都在攻 latency 这个问题，但切入点各异
Multi-exit supervision 让 c=1.0 反而更准这个现象，跟 BERT 时代的 deep mutual learning 类似，可能是个 underexplored regularization
“完全开源” framing 是 A1 在 RoboChallenge 排第六还能讲 story 的关键 — 但学术贡献应该独立于商业 framing 评估，纯方法贡献并不大

Rating

Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=N/A; github 34⭐ / forks=3 / 90d commits=4 / pushed 8d ago

分数：1 - Archived 理由：方法侧实际上是 DeeR-VLA 的 early-exit + π0 的 FM head + “跨层 warm-start” 这个小工程 trick 的组合，Weaknesses 已指出 backbone 选择和 DeeR-VLA 对比都没 ablation，增量单薄；RoboChallenge 整体排第六、与 π0 仅差 0.67pp 且无显著性报告，LIBERO 96.6% 也未压过 OpenVLA-OFT 的 97.1%——既不是 efficient VLA 的必读范式，也非 de facto benchmark。相比 2（Frontier）的”必须比较的 baseline”，A1 更像 “完全开源可复现的参考实现”，属于 niche 工具价值而非方法影响力，因此放到 1 档；若后续社区把 inter-layer warm-start 抽成通用 recipe 被多篇工作采纳，可上调至 2。

MindFlow

Explorer