Summary
DAM-VLA 提出了一种基于 dynamic action model 的 VLA 框架,通过将 arm movement 和 gripper manipulation 解耦为两个专用 diffusion action head,配合 action routing mechanism 和 dual-scale weighting 机制,在 SIMPLER benchmark、FurnitureBench 和真实机器人实验中显著优于 OpenVLA、CogACT、π₀ 等 baseline。
Problem & Motivation
当前 VLA 系统难以同时兼顾通用任务适应性和精细操作精度。作者指出 arm movement 与 gripper manipulation 存在三个关键差异:(1)path constraint 不同——arm 轨迹相对自由,gripper 需要精确姿态;(2)visual attention 不同——arm 需要全局场景理解,gripper 需要局部细粒度关注;(3)数据分布不平衡——dataset 中 arm movement episode 远多于 gripper manipulation,但后者对任务成功至关重要。现有方法用统一的 action head 处理两者,无法针对性优化。
Method
DAM-VLA 的架构包含三个核心组件:
1. Vision-Language Model backbone
- 采用 DINOv2 + SigLIP 双视觉编码器提取 visual feature(class token 用于全局注意力,register token 用于局部注意力)
- LLaMA-2 作为 language backbone,融合视觉和语言信息
- 从不同 transformer layer 输出 cognition latent(f^cog)和 reasoning latent(f^rea)
2. Action Routing Mechanism
- 利用 VLM 的 reasoning latent 预测 routing weight w
- w < 0.5 执行 arm movement model;w >= 0.5 执行 gripper manipulation model
- 通过 cross-entropy loss 对 ground-truth label 进行监督
3. Dynamic Action Model(双头 Diffusion Transformer)
- Arm movement head:接收 class token(全局注意力),适合路径规划
- Gripper manipulation head:接收 register token(局部注意力),适合精细操作
- 两个 head 均以 cognition latent 为 condition
Dual-Scale Action Weighting:
- Trajectory-level weight(w^t):基于 gripper state transition 的非对称 Gaussian 分布(σ_l=6, σ_r=2),在操作关键帧附近加权
- Action-chunk-level weight(w^a):指数衰减(γ=0.8),反映时间不确定性
- 综合权重:w^move = (1-w^t) * w^a,w^mani = w^t * w
训练 loss:L = 1.0 * L_move + 1.0 * L_mani + 0.0001 * L_class
Key Results
SIMPLER Benchmark:
- Google Robot VM setting:DAM-VLA 83% 平均成功率(CogACT 72%,OpenVLA 37%,π₀ 70%)
- Google Robot VA setting:81%(CogACT 62%),展示环境变化下的鲁棒性
- WidowX Robot VM:71%(π₀ 57%,CogACT 52%)
FurnitureBench(long-horizon contact-rich):
- One-Leg 组装任务最终成功率 56%(CogACT 42%),尤其在 screw leg 步骤优势明显(62% vs 56%)
Real-World(Franka robot,80 trials):
- In-Distribution:91.4%(CogACT 65.7%)
- Out-of-Distribution:82.2%(CogACT 60.0%)
- 平均 86.8% vs 62.9%
Ablation:full model 平均 78%,移除 visual tokens + dual-scale weighting 降至 73%,仅用 baseline 为 58%,验证了各组件的贡献。
Strengths & Weaknesses
Strengths:
- 将 arm movement 和 gripper manipulation 的本质差异显式建模,motivation 清晰且有说服力
- Action routing mechanism 避免了 CoT reasoning 的计算开销,同时实现了动态切换
- Dual-scale weighting 机制优雅地解决了 manipulation 数据稀疏的问题
- 实验覆盖全面:simulated benchmark + long-horizon assembly + real-world,结果一致性强
Weaknesses:
- 作者 affiliation 未在论文中明确列出,peer review 状态不明
- Action routing 是二元切换(arm vs gripper),实际操作中两者的边界可能并非如此清晰
- FurnitureBench 仅测试了 One-Leg 任务,long-horizon 的泛化性有待更多验证
- 未讨论与 flow matching 方法(如 π₀)结合的可能性,dual-head diffusion 是否优于 dual-head flow matching 未知
- Real-world 实验仅限 pick-and-place,未覆盖更复杂的灵巧操作
Mind Map
mindmap root((DAM-VLA)) Problem VLA 难以兼顾通用性与精细操作 Arm vs Gripper 本质差异 Path constraint 不同 Visual attention 不同 数据分布不平衡 Method VLM backbone DINOv2 + SigLIP LLaMA-2 Action Routing Binary routing weight Cross-entropy supervision Dynamic Action Model Arm head: class token Gripper head: register token Dual diffusion transformer Dual-Scale Weighting Trajectory-level: asymmetric Gaussian Chunk-level: exponential decay Results SIMPLER: 83% avg FurnitureBench: 56% final Real-world: 86.8% avg 显著优于 CogACT, OpenVLA, π₀
Notes
- DAM-VLA 的核心 insight——arm movement 和 gripper manipulation 需要不同的 action model——值得关注,这可能启发更细粒度的 action decomposition 研究
- Dual-scale weighting 的设计(trajectory-level + chunk-level)是一个通用的技巧,可能适用于其他需要处理稀疏关键动作的场景
- 论文中 CogACT 作为主要 baseline 反复出现,需要了解 CogACT 的方法细节以更好理解 DAM-VLA 的改进点