Summary
本文系统性地研究了 VLA 模型 fine-tuning 时的关键设计选择(action 生成策略、action 表示、学习目标),提出 OpenVLA-OFT(Optimized Fine-Tuning)方案,通过 parallel decoding、action chunking、continuous action representation 和 L1 regression 目标,在 LIBERO benchmark 上达到 97.1% 成功率(较 OpenVLA 提升 20.6 个百分点),同时实现 26× 推理加速。
Problem & Motivation
现有 VLA 模型(如 OpenVLA)在 fine-tuning 到新机器人平台时,面临两个核心问题:(1)autoregressive token 生成方式导致推理速度慢,无法满足高频控制需求;(2)离散化 action 表示和 next-token prediction 目标在精确操作任务中表现欠佳。已有工作在 fine-tuning 策略上的选择缺乏系统性对比,实践者难以判断哪些设计选择真正重要。
Method
OpenVLA-OFT 在 OpenVLA(7B 参数)基础上做了以下关键修改:
- Parallel Decoding:将 causal attention 替换为 bidirectional attention,使模型在单次 forward pass 中同时生成所有 action token,而非逐个 autoregressive 生成,推理延迟降低约 4×。
- Action Chunking:同时预测 K 个时间步的 action(而非仅当前步),提升吞吐量并增强时序一致性。
- Continuous Action Representation:用连续值替代原始的 256-bin 离散化 action token,通过 MLP 输出层直接回归连续 action。
- L1 Regression 学习目标:用 L1 loss 替代 next-token prediction(cross-entropy loss),系统对比发现在 7B 大模型上 L1 regression 优于 diffusion-based 方法。
- 多视角与 proprioception 支持:支持多相机视角输入和 proprioceptive state。
- FiLM 条件化:在 real-world 任务中集成 Feature-wise Linear Modulation (FiLM) 以增强 language grounding。
Key Results
- LIBERO Simulation:平均成功率 97.1%,较 OpenVLA baseline (76.5%) 提升 20.6 个百分点,超越 π₀ (94.2%) 等 SOTA 方法。
- 推理速度:单臂任务 71.4 Hz throughput、0.112s latency;双臂任务 77.9 Hz throughput、0.321s latency;相比 base OpenVLA 实现 26-43× 加速。
- ALOHA Real-World:在双臂灵巧操作任务上超越 RDT-1B、π₀、ACT、Diffusion Policy 等方法,成功率领先最多 15 个百分点,控制频率达 25 Hz。
- 核心发现:fine-tuning 时的设计选择极为重要——经过优化 fine-tuning 的 7B 模型可以超越更大、更复杂的预训练模型。
Strengths & Weaknesses
Strengths:
- 系统性消融实验清晰展示了每个设计选择的贡献,对实践者有很强的指导意义
- 方法简洁高效,不依赖复杂的 diffusion 过程,L1 regression 即可在大模型上取得优异性能
- 同时在 simulation 和 real-world 验证,real-world 使用了有挑战性的 bimanual 任务
- 推理加速显著,使 VLA 模型真正可用于高频实时控制
Weaknesses:
- L1 regression 对 multimodal action distribution 的处理能力存疑(作者也承认),在需要多种合理行为的场景中可能受限
- 仅在 OpenVLA 上验证,结论是否迁移到其他 VLA 架构尚不明确
- 未探讨这些 fine-tuning 策略在 pretraining 阶段是否同样有效
- Simulation 与 real-world 之间 language grounding 效果不一致,原因尚未完全阐明
Mind Map
mindmap root((OpenVLA-OFT)) Problem VLA fine-tuning 缺乏系统性指导 Autoregressive 推理速度慢 离散 action 表示精度不足 Method Parallel Decoding Bidirectional Attention 单次 forward pass Action Chunking 多步预测 Continuous Action MLP 输出层 L1 Regression FiLM 语言条件化 Results LIBERO 97.1% 成功率 26-43× 推理加速 ALOHA real-world 领先 15% 7B 模型超越更大模型