TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

Summary

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

核心: 用 <1.4B 的小 VLM（LLaVA-Pythia）+ Diffusion Policy head 构造 VLA，去掉对 OpenX 级别大规模机器人数据预训练的依赖，同时把推理延迟从 OpenVLA 的 ~290ms 降到 ~14ms（A6000）

方法: 自研三档 Llava-Pythia VLM（0.4B/0.7B/1.3B）做 backbone → LoRA 微调（5% 可训练参数）→ 特征经 adaptive pool + MLP 作为条件送入 Diffusion Policy head 直接输出连续动作，而非 autoregressive 动作 token

结果: 单臂 Franka 5 任务平均成功率 94.0%（OpenVLA 68.3%，+25.7pp），5.5× 参数更少、20× 推理更快；双臂 UR5 上 OpenVLA 全部为 0 而 TinyVLA-H 达 44.5%

Sources: paper | website | github

Rating: 2 - Frontier（“小 VLM + diffusion head” 路线的代表性早期工作，被 SmolVLA、Pi0 等继承；但自己用的 Pythia backbone 已过时、双臂结果绝对值偏弱、代码仓库 stale）

Key Takeaways:

VLA 不一定要 OpenX 预训练：把泛化能力从”robot data 学出来”换成”继承自 VLM 预训练”，在 5 个单臂任务和 instruction / background / lighting / distractor 等泛化维度上仍能匹配甚至超过 OpenVLA
Autoregressive action token 是延迟大头：控制 VLM 同尺寸（OpenVLA→1B）时 diffusion head 相比 AR token 仍快 10×（140ms vs 14ms）——说明解码方式比 backbone 缩放带来的速度增益更关键
VLM 规模真实影响成功率：0.4B→1.3B 可消除 instruction 误解类 failure，但需 ≥1.3B 才开始跨越”可用”门槛，SmolVLA 级的 450M 是明显不够的；3B PaliGemma 进一步改善 localization
OpenX 预训练反而拖累 bimanual：OpenX 只含单臂数据，OpenVLA 在双臂任务上 0% 成功，TinyVLA 的”无预训练 + VLM 先验”反而迁移更好——一个关于 pretraining distribution lock-in 的 cautionary tale

Teaser. 推理延迟 vs 平均成功率：TinyVLA-H 以 5.5× 更少参数、20× 更低延迟压过 OpenVLA。

Figure 1. Inference latency vs. average success rate. y 轴为 5 个真机任务平均成功率，气泡直径代表参数量，A6000 上测得。

Problem & Motivation

论文把 VLA 的两个 deploy-blocking 问题并置：

推理慢：7B 级 VLM + autoregressive action token 生成（每个 DoF 一次 forward）→ 单步动作 ~290ms
预训练贵：OpenVLA 需要 OpenX 970K trajectories，机器人领域的”BigSleep”路线

作者的诊断：两者都源于 VLA 照搬 VLM 的生成范式——既用了 VLM 级的 backbone 尺寸，又继承了 discrete token 生成。TinyVLA 的 bet 是两者都拆：backbone 缩到 <1.4B，动作生成换成 diffusion。

❓ 这是一个很自然的拆分，但”VLM 预训练先验能替代 robot data 先验”这个 claim 只在 5 个相对短时程的桌面任务上验证——对 long-horizon、接触密集、需要精确位姿控制的任务是否成立，本文没有答案。

Method

Figure 2. Model architecture. 左：VLM 预训练 pipeline（LLaVA recipe + Pythia）。右：robot data 微调阶段，VLM 走 LoRA，diffusion head 全参训练。

三个核心设计

1) 自研紧凑 VLM 系列（Llava-Pythia）

语言模型后端：Pythia（70M ~ 1.4B 档位）
训练 recipe：LLaVA 的视觉指令微调 pipeline + 数据
三档尺寸：TinyVLA-S (0.4B total) / -B (0.7B) / -H (1.3B total，143M trainable)

2) LoRA 冻结主干 对 attention 的 $Q, K, V$ 权重施加低秩分解 $W_{0} + B A$ ，其中 $r ≪ min (d, k)$ 。可训练参数 ≈ 整个 transformer 的 5%。训练完成后通过 re-parameterization 把 LoRA merge 回主干，推理零开销。

3) Diffusion Policy head 代替 AR token 生成

选型理由：论文明确反对 discrete action tokenization——引用文献 [31-34] 论证 continuous/high-dim data tokenization 训练困难、需要大量数据、易退化。
pipeline：VLM backbone 输出多模态 embedding → adaptive pool + LayerNorm → 拼接本体感知状态向量 → 3-layer MLP 生成 conditional embedding → 标准 Diffusion Policy (DDPM) 训练
动作维度：7-DoF (x, y, z, roll, pitch, yaw, gripper_width)

❓ Adaptive pool 这一步把可变长度的视觉-语言 token 序列压成固定长度 condition，听起来合理但没有消融——这其实丢掉了 token-level 的空间信息，是否是 localization 泛化偏弱的根因？

Experiments

Setup

Simulation: MetaWorld 50 tasks（easy 28 / medium 11 / hard 6 / very hard 5），每任务 50 demos
Real single-arm: Franka Panda 7-DoF，双 ZED 2 stereo camera，5 任务（CloseDrawer / StackCubes / OpenBox / PlaceTennis / FlipMug），每任务 100 trajectories
Real bimanual: 双 UR5 + wrist 和 top cameras（Realsense D435i），3 任务（TransferBread / PlaceTennisBag / StackCubes）
Baselines: Diffusion Policy（加 FiLM 注入 language）、Multimodal Diffusion、OpenVLA（为公平比较，改造为多视角输入）

Main Results

Table I. MetaWorld 仿真结果（TinyVLA-H vs Diffusion Policy，平均成功率）

Model	Easy (28)	Medium (11)	Hard (6)	Very Hard (5)	Avg.
Diffusion Policy	23.1	10.7	1.9	6.1	10.5
TinyVLA-H	77.6	21.5	11.4	15.8	31.6

在 Hard tier 上 TinyVLA 成功率是 DP 的 6×，差距随任务复杂度扩大。

Table II. Franka 单臂真机结果（5 任务 × 20 trials × 3 checkpoints）

Model	Pre-trained Traj.	Total Params	Trainable	Avg.
Diffusion Policy	N/A	111M	111M	35.3
Multimodal Diffusion	N/A	230M	230M	18.0
OpenVLA	970K	7.2B	195M	68.3
TinyVLA-S	N/A	422M	101M	23.3
TinyVLA-B	N/A	740M	138M	77.4
TinyVLA-H	N/A	1.3B	143M	94.0

TinyVLA-S 掉得很厉害（23.3）—— 0.4B VLM 不足以撑起 VLA。关键拐点在 0.4B → 0.7B。

Table III. 双臂 UR5 结果（3 任务，10 trials，平均成功率）

Model	Trainable	PlaceBread	StackCubes	PlaceTennisBag
DP	111M	40.3	31.3	43
OpenVLA	195M	0	0	0
TinyVLA-H	143M	76.7	36.7	30

OpenVLA 在 bimanual 上彻底失败——作者归因于 OpenX 只含单臂数据，pretraining distribution 把 policy 锁死在了单臂动作空间。这是论文最有信息量的 negative result。

Ablations

Table IV. 速度来源拆解（A6000 GPU 上单步动作 latency）

OpenVLA-7B → OpenVLA-1B	TinyVLA-1B
292 ms → 140 ms	14 ms

结论：VLM 缩放（7B→1B）只贡献 2× 加速；另外 10× 来自 diffusion head 取代 AR token 生成。这个拆解比主实验更清晰。

Table V. Policy head 消融（TinyVLA-H backbone 固定）

Policy Head	PlaceTennis	FlipMug	StackCubes	CloseDrawer	OpenBox
MLP	0	0	0	0	0
ACT	13.3	8.3	8.3	13.3	23.3
Diffusion	90	98.3	98.3	96.7	86.7

MLP 全军覆没说明 VLM condition + MLP head 无法优化；ACT 可以收敛但远不如 diffusion。Diffusion 在这种 condition-rich scenario 下明显优越。

Generalization

论文做了 6 个维度的泛化实验，TinyVLA 普遍 ≥ OpenVLA：

Instruction（Figure 4）：未见颜色（green mug）、Seen-object 跨任务重组（“pick the cube”）、未见物体 + 新功能（“pick car, place into box”）均成功
View（Figure 5）：相机视角 ±30° 内 TinyVLA 仍鲁棒，DP 轻微视角变化即失败
Background（Figure 6）：6 种不同桌面材质都成功
Distractor & Illumination（Figure 7）：不加数据增强即可容忍 L1/L2 级 distractor 和低光条件；OpenVLA 在低光下失败
Appearance（Figure 8）：物体颜色改变（棕 mug → 其他色）仍成功，归因于 VLM 预训练先验
Spatial（Figure 9）：远离训练位置的 OOD 位置上 OpenVLA 略好于 TinyVLA——这里 OpenX 大规模机器人数据的优势显现，是论文少有的 TinyVLA 不占优的维度

Figure 10. Failure mode 按 VLM 尺寸分解：0.4B 主要死在 instruction 理解错误；升到 1.3B 后主要剩下定位不准；升到 3B（PaliGemma）后定位错误进一步减少。

关联工作

基于

Diffusion Policy（DDPM-based visuomotor policy）：直接作为 action head
LLaVA：VLM 训练 recipe
Pythia：语言模型后端
LoRA（Hu et al. 2022）：parameter-efficient fine-tuning

对比

OpenVLA：7B Prismatic + OpenX 970K 预训练 + AR action token；TinyVLA 主要对标对象
RT-2：VLA 范式的源头，discrete action tokenization 的代表
Octo：cross-embodiment 预训练路线

方法相关

MobileVLM v2 / LLaVA-Phi（small VLM 探索）：<3B 级 efficient multimodal
PaliGemma：3B VLM，在 ablation 中作为更大 backbone 验证 scaling
Action Chunking Transformer (MobileALOHA 系)：policy head 消融对比项

后续影响

SmolVLA：继承 “小 VLM + flow matching head” 思路，把规模推到 450M
OpenVLA-OFT：从 OpenVLA 侧引入 continuous action decoding（parallel decoding / L1 regression），收敛到相近结论——AR action token 是 VLA 延迟的主要瓶颈

论文点评

Strengths

问题诊断清晰：把 VLA 的 latency 拆成 “VLM 太大” 和 “AR token 生成” 两个独立源，并用 Table IV 的 OpenVLA-1B 中间点分别量化贡献——这种解耦实验比主实验更有说服力
双臂结果是一个有力的 negative result：OpenVLA 在 bimanual 上 0% 成功暴露了 OpenX 预训练的 distribution lock-in 问题，这是一个很少被其他 VLA 论文直接指出的 cautionary signal
数据效率 claim 有 grounding：每任务 100 trajectories 相比 OpenVLA 的 970K pretraining + 微调是数量级的差距，且 5 任务主实验上确实更强
泛化评测覆盖面广：instruction / view / background / distractor / illumination / appearance / spatial 7 个维度系统测试，比大多数 VLA 论文更严谨

Weaknesses

Backbone 选择已过时：Pythia 在 2024 年已非最强 <2B 语言模型，作者自研 Llava-Pythia 而没有直接用更新的小 VLM（如 PaliGemma、Qwen2-VL）。Table V 消融中用 PaliGemma 作为 TinyVLA-3B 的提示是对的，但没有把这一档作为主线配置
任务难度偏低：5 个单臂任务都是桌面短时程 pick-and-place + 姿态调整，长时程操作、接触密集任务、需要精细力控的任务都未涉及——“VLM 先验足够替代 robot data 先验” 的 claim 需要在更难的任务上验证
Spatial generalization 是弱项但被低调处理：Figure 9 显示远距离 OOD 位置 OpenVLA 更好，但作者一笔带过。这其实是 “OpenX 大规模机器人数据的价值在哪里” 的关键证据
Diffusion sampling step 未报告：14ms 的推理延迟对应多少 denoising steps？消融里没有讨论 diffusion steps 对延迟/性能的 trade-off
Adaptive pooling 黑盒：把可变长度视觉 token 压成固定长度 condition 这个操作没有 ablation，也没有讨论对 localization 泛化的影响
数据绝对量不突出：100 trajectories × 5 任务 = 500 demos，但 OpenVLA 论文里微调阶段通常也就几百到几千 demos，所谓 “data-efficient” 主要是省了 970K pretraining；微调数据本身并没有显著更少

可信评估

Artifact 可获取性

代码: inference + training（GitHub 2025-02-17 release；但仓库已 stale，>400 天未 push，0 个 90d commits）
模型权重: 三档 VLM backbone 全部公开（Llava-Pythia 400M/700M/1.3B on HuggingFace @lesjie）；VLA 训练后权重未直接发布，但脚本齐全
训练细节: 高层描述 + 脚本（OUTPUT / task_name / model_name_or_path 等超参位置），LoRA 配置和 diffusion 超参需要读代码
数据集: MetaWorld 开源；真机 5 任务 + 双臂 3 任务的 teleoperation 数据未公开

Claim 可验证性

✅ “20× faster than OpenVLA”：Table IV 同 GPU 同 backbone 尺寸对比，292ms/14ms，可验证
✅ “5.5× 参数更少 + 25.7pp 更高成功率”：Table II 数据支持（1.3B vs 7.2B = 5.54×；94.0 - 68.3 = 25.7）
✅ “OpenVLA bimanual 0%“：Table III 三任务全 0，grounding 很硬
⚠️ “No pretraining needed”：严格说 VLM 预训练仍在，只是跳过了 OpenX 级的 robot-data pretraining；措辞 “eliminating the need for pre-training stage” 容易误导
⚠️ “Strong generalization”：Figure 5-9 的泛化实验每个 setting 只 2-6 trials，样本量偏小；spatial generalization 其实 OpenVLA 更好
❌ “VLM 先验可以替代 robot 预训练”：任务难度和 horizon 都偏低，这个 claim 在 long-horizon / contact-rich 任务上没有证据

Notes

TinyVLA 的真正贡献是把 “小 VLM + 连续动作 head” 这条路线的可行性做实，并用解耦实验锁定 AR action token 是延迟主因。从今天（2026-04）回看，这个判断被 OpenVLA-OFT、π0、SmolVLA 全部验证，属于方向正确
但自己的实现（Pythia backbone、桌面任务、stale 代码仓库）没有承接这个路线的后续演化——SmolVLA、π0 在更现代的 backbone 和任务难度上把这条路线推得更远
对 embodied AI 研究者：读这篇主要是为了理解 “为什么小 VLM + diffusion head 的范式能 work”，而不是作为具体实现参考

Rating

Metrics (as of 2026-04-22): citation=302, influential=11 (3.6%), velocity=15.9/mo; HF upvotes=0; github 67⭐ / forks=10 / 90d commits=0 / pushed 407d ago · stale

分数：2 - Frontier

理由：302 citation / 15.9 per month 表明这是被 VLA 社区广泛引用的工作，尤其作为 “不依赖 OpenX 的小型 VLA” 范式代表。但 influential citation 比例偏低（3.6%，远低于 π0 的 19%、典型的 ~10%）说明更多是被当 landmark reference 提及而非技术实质继承——后续工作如 SmolVLA、OpenVLA-OFT 重新实现了核心 insight 但没有直接继承 TinyVLA 的代码/权重。github 67 stars + 仓库 stale（>400 天未 push）也印证了这点。距离 3 - Foundation 的差距在于：核心 insight（VLA 不需要 OpenX，AR token 是延迟主因）被独立验证但具体实现未成为事实标准；距离 1 - Archived 的距离在于：这是方向里的 paradigm-shifting 早期工作，任何小型 VLA 相关研究都绕不开。

MindFlow

Explorer

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

Summary

Problem & Motivation

Method

三个核心设计

Experiments

Setup

Main Results

Ablations

Generalization

关联工作

基于

对比

方法相关

后续影响

论文点评

Strengths

Weaknesses

可信评估

Artifact 可获取性

Claim 可验证性

Notes

Rating

Table of Contents