Summary
OpenVLA 是 Stanford 等机构推出的 7B 参数开源 VLA 模型,基于 Llama 2 + DINOv2/SigLIP 双视觉编码器架构,在 970k 真实 robot demonstration(Open X-Embodiment)上训练,性能超过 RT-2-X(55B)16.5%,同时支持消费级 GPU fine-tuning,是 VLA 领域最重要的开源基准之一。
Problem & Motivation
RT-2 等 VLA 模型证明了 VLM→robot action 的可行性,但模型闭源、体量巨大(55B),社区无法复现和迭代。作者旨在构建一个开源、高效、可 fine-tune 的 VLA 模型,降低 VLA 研究的门槛。
Method
1. 模型架构(7B)
- Visual encoder:融合 DINOv2(空间特征)和 SigLIP(语义特征)的 dual encoder
- Language model:Llama 2 7B 作为 backbone
- Action head:autoregressive token prediction,将 action 离散化为 token
- 整体架构继承 Prismatic VLM 设计
2. 训练数据
- 970k 真实 robot demonstrations,来自 Open X-Embodiment 数据集
- 覆盖多种 robot embodiment 和任务
- 仅使用 robot 数据训练(不混合 web 数据)
3. Fine-tuning 支持
- 支持 LoRA 等 parameter-efficient fine-tuning
- 可在消费级 GPU(单卡)上完成 fine-tuning
- 支持 INT8 量化部署,性能不下降
4. Action Representation
- 与 RT-2 类似的 action tokenization
- 7-DoF discrete action tokens
- Autoregressive 生成
Key Results
- vs RT-2-X(55B):在 29 个任务上绝对成功率提升 16.5%,参数量仅 1/7
- vs Diffusion Policy:fine-tuning 后超出 20.4%
- 跨 embodiment:在 WidowX 和 Franka 等多个平台上验证
- Fine-tuning 效率:几小时即可适配新任务
- 量化部署:INT8 量化后性能无损
Strengths & Weaknesses
Strengths:
- 完全开源(模型权重、训练代码、fine-tuning notebook),极大推动了 VLA 社区发展
- 7B 参数量在实用性和性能间取得良好平衡
- DINOv2 + SigLIP 双视觉编码器设计有效融合空间和语义特征
- LoRA fine-tuning 使个人研究者也能参与 VLA 研究
- 成为后续 VLA 研究的重要 baseline
Weaknesses:
- 仍使用 autoregressive action token 预测,控制频率受限
- 未采用 action chunking 或 flow matching,灵巧操作能力有限
- 在高频精细操作任务上不如 π₀ 等 continuous action 模型
- 仅支持 image + language 输入,无 proprioception 输入
Mind Map
mindmap root((OpenVLA)) Problem VLA 模型闭源 55B 参数过大 社区无法复现 Method Llama 2 7B backbone DINOv2 + SigLIP 双编码器 970k demonstrations Open X-Embodiment LoRA fine-tuning Results 超越 RT-2-X 16.5% 参数量仅 1/7 消费级 GPU fine-tuning INT8 量化无损 Limitations Autoregressive 低频控制 无 action chunking 灵巧操作受限
Notes
- OpenVLA 的核心贡献是”开源”本身——让 VLA 研究从少数大实验室扩展到整个社区
- DINOv2 + SigLIP 双编码器的设计值得注意:DINOv2 擅长空间/几何特征,SigLIP 擅长语义对齐
- 后续 MiniVLA 进一步压缩到更小尺寸,说明 VLA 并不一定需要很大的模型
- 作为 baseline 被 π₀、π0.5 等论文广泛对比,是 VLA 领域的”标准参考点”