Summary

Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation

  • 核心: 用一个 closed-loop diffusion policy,让机械臂在执行过程中实时响应来自人类或高层 planner 的稀疏 3D referring point,提供 OOD 错误恢复与轨迹重规划能力,且完全只用专家演示训练——靠对演示的扰动增强而非额外人工标注
  • 方法: Coupled Diffusion Heads(GDH 出全程稀疏 anchor + LDH 局部插值)+ Temporal-Position Prediction 把 referring point 定位到 anchor 序列里 + Trajectory-Steering Strategy(masked denoising 把 anchor / referring action 强制注入 noisy trajectory)
  • 结果: 在 RoboFactory 4 个 via-point 任务上 RePR=100%、SuR 50–100%(基线 SuR 大多 <40%);real-world 5 任务 30/30 trial 全部穿过 referring point,SuR 12–21/30 优于 ACT/DP
  • Sources: paper | website
  • Rating: 2 - Frontier(referring-aware diffusion policy 的代表性新提法,组件不新但组合干净、实验覆盖够全;但代码未开源、上游 planner 未端到端验证,尚未成为必引 baseline)

Key Takeaways:

  1. 把 referring point 当做”轨迹中间一定要经过的锚点”,比把它当 condition 拼到 obs 上有效得多——baseline (ACT/DP3/CDP/Octo) 把点拼进观测后基本忽略,RePR 仅个位数到 80%。
  2. Coupled Diffusion Heads 解耦了”全程一致性”与”局部精细度”:GDH 一次出 N₁ 个稀疏 anchor 抓全局结构,LDH 在邻接 anchor 间做条件插值出 N₂ 步细粒度动作。这等价于把 long-horizon trajectory 分了一次 coarse-to-fine。
  3. Trajectory-steering 等价于 inpainting:用 binary mask 把已知 anchor / referring action 直接 hard-write 到 noisy diffusion 状态里,每个 denoising step 都重写。无需新 loss、无需 fine-tune。
  4. 训练数据完全来自扰动专家演示:随机采一个动作加噪生成合成 referring action,用七阶多项式 spline 平滑融回轨迹——无需人工标注 recovery / correction trajectory,回避了 MimicGen 那条扩数据集的 scaling 瓶颈。

Teaser:项目主页(gaavama.github.io/ReV)目前是模板状态,未上传 demo 视频/图。下方 Figure 1 是论文 teaser——展示 baseline 遇到 OOD 时无法 recover、ReV 通过 referring point 实现 re-route。

Figure 1. Teaser:基线 vs ReV 在 OOD 场景下的行为对比


1. Motivation:模仿学习的 OOD 脆弱性

数据驱动的 visuomotor policy 在 in-distribution 任务上很强,但模仿目标本身没有 recovery 机制:一旦 state/observation 漂出演示分布,模型既无法纠错,也无法在动态环境里换路径。现有 fix 走两条路,各有问题:

  1. 扩数据 + 显式 correction trajectory(MimicGen 等)— 人力不 scale,且引入次优轨迹反而压低成功率。
  2. 手设 cost / reward 引导规划(Diffuser、MPD、VoxPoser)— 静态规则在动态/novel 场景不泛化;reasoning planner 又往往低频、与 closed-loop 控制脱节。

ReV 提出的核心问题:

当训练数据只能是专家演示(无 correction、无 reward labeling),如何让 policy 在动态环境里对 OOD 鲁棒?

答案:把”recovery / replanning”的语义外包给一个稀疏的 3D referring point(来自人类或 high-level planner,例如 RoboRefer),然后在 policy 内部设计机制让它真的响应这个点。


2. Method:Coupled Diffusion Heads + Referring-Aware Design

2.1 Problem Formulation

Policy 输入:

  • 3D 参考点 (来自高层 planner)
  • 当前观测
  • 历史 proprioception

输出轨迹 必须满足 Manipulation Steering Choreography 三个条件:

  1. Steering Fidelity:末端必须在 附近某 ε 阈值内接触;
  2. Task Success:仍要完成原任务;
  3. Smoothness:低 jerk 平滑过渡。

❓ 论文称 referring point 来自 RoboRefer 这类高层模型,但全文实验都是用 ground-truth via-point(人工生成 + 高斯扰动),没做端到端 planner→ReV 的 pipeline 实验。这是个有意提的抽象但没验证的接口。

2.2 Architecture:Coupled Diffusion Heads

整体如 Figure 2,分两个 head:

Figure 2. ReV 整体架构与 closed-loop inference 流程

Global Diffusion Head (GDH) — 出全程稀疏 anchor,捕捉 long-range 任务结构:

  • 是长度为 的稀疏 anchor 序列;
  • 条件是当前观测 + 已执行 anchor 历史。

Local Diffusion Head (LDH) — 在两个相邻 anchor 之间做条件插值:

  • 输出 是 step 的 fine-grained sub-trajectory;
  • 关键:step index 显式作为 condition——LDH 学到不同时间位置的”插值风格”不同(早期粗动作 vs 后期精细微调);
  • 总轨迹长度 ,需要按任务复杂度提前选好。

Closed-Loop Inference:每一步都重新 GDH→LDH,把最新观测 / anchor 历史塞进去,在线 replan。anchor 历史递增式扩展:

这种”全程稀疏 anchor + 局部稠密插值”的双层结构,本质是把 long-horizon trajectory generation 分解成 coarse-to-fine。和 CARP 的 coarse-to-fine autoregressive 思路同源,但用 diffusion 而非 next-token,且显式 anchor 化。

2.3 Referring-Aware Design

包含两个组件:

Temporal-Position Prediction

把 referring point 定位到 anchor 序列里——formulated as -way classification。

Figure 3. Temporal-Position Prediction:N₁-way classification 把 referring point 映射到 anchor 序列的某一个 slot

  • 构造长度 的 slot 序列 :前 个填历史 anchor,后 个用最后一个 anchor 复制 padding;
  • 加上单调递增的 temporal-position embedding:历史 slot 共享 ,padding slot 用 表征”距离当前的未来时序”;
  • Transformer encoder 输入 + ,输出概率
  • 作为预测时间位置。

❓ 这个模块在 inference 时只在开始调用一次——Fig. 7(c) 的 ablation 显示每步都重新预测 反而会让 anchor “drift”。这意味着如果 referring point 来源是动态的(比如人随时换指点),需要手动”reset”机制。这是个相当 brittle 的设计假设。

Trajectory-Steering Strategy

核心 trick 是 masked denoising / inpainting:把 known action 强制写入 noisy 状态,让 diffusion 反向过程”绕着 known 走”:

应用三处:

Mask作用
把 history anchor 注入 GDH 的 denoising
把邻接 anchor pair 注入 LDH
基础上额外把 referring action 写进 slot

注:actions 在 end-effector Cartesian space 表示,referring point 只约束 ,rotation 与 gripper 留给 policy 自由生成。

这等价于 image inpainting 的 RePaint / FLAME 思路用在 action diffusion 上——几乎免费,无新损失、无新参数。

2.4 Training

  • 数据 augmentation:从专家演示随机采一个动作,加宽分布噪声合成 ,七阶多项式 spline 平滑融回——保证 jerk-bounded。这是 ReV 不需要额外标注的关键。
  • Loss:

CCE 监督 temporal-position prediction(slot 索引分类),MSE 同时监督 GDH 输出 anchor 和 LDH 输出 sub-trajectory:

LDH 训练时每个 iteration 均匀采样一个 segment index


3. Experiments

3.1 Metrics

定义三个新指标,对应 Manipulation Steering Choreography:

  • RePR (Region Penetration Rate):末端最近距离 的 trial 比例
  • SuR (Success Rate):必须同时穿过 完成任务才算成功
  • SmS (Smoothness Score): 是相邻 step 的位移平均

3.2 主结果(Q1)

Figure 4. ReV 在 4 个 via-point 任务上的轨迹可视化

Table 1. Modified RoboFactory 4 任务上的对比

MethodPick Meat-via RePR/SuRLift Barrier-via RePR/SuRPlace Food-via RePR/SuRCamera Alignment-via RePR/SuR
ACT2% / 1%1% / 1%0% / 0%0% / 0%
DP380% / 1%99% / 25%1% / 1%0% / 0%
CDP14% / 14%99% / 99%47% / 33%0% / 0%
OCTO18% / 9%32% / 32%1% / 1%0% / 0%
MPD20% / 3%39% / 39%3% / 3%1% / 1%
ReV (Linear)100% / 80%100% / 63%100% / 21%100% / 87%
ReV (Cubic Spline)100% / 85%100% / 86%100% / 17%100% / 85%
ReV (Min Snap)100% / 18%100% / 80%100% / 23%100% / 76%
ReV (full)100% / 91%100% / 100%100% / 50%100% / 92%

观察:

  • RePR 100% 是 trajectory-steering inpainting 的”硬性”保证——只要 referring point 可达,就一定经过。这相当于把”穿过点”从 learning 问题变成 enforcement 问题。
  • SuR gap 主要来自 base policy 能力:ReV-full vs ReV-Linear/Cubic 的差异说明 LDH 学到的 temporal-aware 插值确实重要(vs 静态 spline)。
  • Place Food-via SuR 只有 50%——值得注意的失败 mode,正文未深入分析。

3.3 OOD-feasible Referring(Q3)

Table 2. 偏离 expert 分布 0.1–0.4m 的 feasible referring point

DeviationRePRSuR
0.1100%93%
0.2100%92%
0.3100%89%
0.4100%87%

graceful degradation——0.4m 偏移下 SuR 仍 87%。这是 ReV 最 compelling 的结果,因为它直接证明了”只用专家演示训练 + 扰动 augmentation”能给出超出训练分布的 referring 响应能力。

3.4 Coupled Diffusion Heads 自身的提升(Q4,去除 referring 后)

Table 3. 去掉 referring,纯比 policy 架构 across Adroit / DexArt / MetaWorld / RoboFactory(13 个任务)

MethodAvg trend
ACTweakest
DP3mid
CDPmid-high
ReVbest on all 13 tasks

具体数字:例如 RoboFactory Lift Barrier 上 ReV 99% vs CDP 93% / DP3 90%;DexArt Bucket 上 ReV 61% vs CDP 32%。说明 coupled diffusion heads 架构本身(脱离 referring 设计)就比 sliding-window diffusion policy 好——因为它捕获了 long-range execution pattern。

3.5 Real-World(Q7)

Table 4. Real-world 5 任务(每任务 30 trials)

MethodCollecting Obj-viaPush T-viaStack Card-viaGrab Rod-viaHand Eraser-via
ACT3 / 15 / 33 / 02 / 03 / 1
DP6 / 512 / 99 / 33 / 16 / 2
ReV30 / 2030 / 2130 / 1530 / 1830 / 12

格式:PeRP / SuR(分母 30)。ReV 在所有 trial 上都 PeRP 命中,SuR 12–21 显著优于 baseline。Dual-arm 任务(Grab Rod, Hand Eraser)也 work。

平台:dual ORBBEC PiPER 6-DOF + ORBBEC DaBaiDC1 RGB-D + 30Hz 控制频率,单台 RTX 4090 跑全 pipeline。

3.6 Infeasible Referring(B.3)

Table 5. 故意给不可行的 referring point

MethodInside CameraInside PotUnder TableOut of Reach
DP30%0%0%0%
CDP0%11%0%0%
ReV100%100%0%0%

ReV “盲目”听话——Inside Camera / Pot 这种逻辑上反任务的 referring,也会推开物体去够;只有物理不可达(Under Table / Out of Reach)才放弃。这是双刃:高 controllability,但完全把 sanity check 推给了上游 planner。

❓ Inside Pot 100% 命中意味着 ReV 把食物丢进了不该丢的位置——这种 “obedience” 在真实部署里是 feature 还是 bug?取决于上游 planner 可不可信。


关联工作

基于

  • Diffusion Policy (Chi et al. 2023):ReV 的 visuomotor policy backbone 思路来自 DP,但 DP 是 sliding-window,没有全程 anchor 概念。
  • DDPM (Ho et al. 2020):底层 diffusion 框架。
  • CDP (Ma et al. 2025):同作者前作,causal autoregressive diffusion policy;ReV 是其更激进的”全程 anchor + 局部插值”版本。
  • DP3 (Ze et al.):3D point-cloud diffusion policy,ReV 的主要 baseline。
  • CARP:coarse-to-fine autoregressive 思路相近。
  • RoboFactory:sim benchmark 来源。

对比

  • ACT:autoregressive,模仿学习经典 baseline。
  • Octo:language-conditioned generalist policy,论文里把 referring point 当 language 输入它,效果差。
  • MPD (Carvalho et al. 2025):classifier-guided diffusion + cost function,代表”加 reward 引导”路线。
  • VoxPoser (Huang et al. 2023):用 LLM 生成 3D value map 引导 manipulation,代表”reasoning planner”路线。

方法相关

  • Trajectory-steering = Inpainting:RePaint 思路 + FLAME 在 motion synthesis 上的应用。ReV 把它移植到 robot action diffusion。
  • Recovery via correction data:MimicGen、Florence、Mandlekar——ReV 想 sidestep 的对照路线。
  • Diffuser (Janner 2022)、EDMP:planning-as-inference with diffusion + cost.
  • RoboRefer:ReV 设想的 upstream referring-point provider,但未端到端验证。

论文点评

Strengths

  1. 问题 framing 清晰且重要:模仿学习 OOD 脆弱性是 manipulation 方向公认的难题,论文把”externally provided referring point”作为 minimal 的 closed-loop 信号,避开了”扩数据”和”手设 reward”两个昂贵路径。
  2. 方法 elegant:Trajectory-steering 本质是 inpainting,几乎零成本嫁接到 diffusion policy 上;coupled diffusion heads 也是个干净的 coarse-to-fine 分解。这种”小改动大幅提升”的 simplicity 符合好工作的 taste。
  3. 训练数据无需新标注:仅用扰动 augmentation 让 ReV 学会响应任意 referring point。这是论文最有 scaling 潜力的点——任何已有 demonstration 数据集都可以”白嫖”出 referring-aware policy。
  4. 实验扎实:13 个 sim 任务(4 benchmark)+ 5 real-world 任务(含 dual-arm)+ infeasible / OOD 两类 ablation,覆盖足够全面。

Weaknesses

  1. Referring point 的来源未端到端验证:全文 referring point 都是 ground-truth via-point(人工或脚本生成),没有实际接 RoboRefer 这类 reasoning planner 跑 closed-loop。“VLM/world model planner → ReV”这个 sales pitch 只是 future work。
  2. Temporal-Position Prediction 的脆弱性:模块每步重新预测会引发 anchor drift(Fig 7c),论文用”开始只调用一次 + 显式 reset”绕开。这意味着 dynamic scene(点会移动 / 新点出现)的 robustness 实际上靠手工 trigger reset 来维持,不是真正”closed-loop”。
  3. Place Food-via SuR 仅 50% 是个未深入分析的 failure mode——可能是 trajectory-steering 强行穿过 referring 时破坏了 grasp pose 的可行性。
  4. Infeasible referring 的”盲目”obedience 在真实安全场景里是隐患:ReV 不会拒绝有害指令。论文没有讨论 sanity-check / refusal mechanism。
  5. Smoothness 指标 SmS 的设计:用相邻 step 位移作为 jerk 代理,量纲不严谨。各方法 SmS 都接近 0.99,区分度低,这个 metric 实际没起作用。
  6. 缺与 VoxPoser / Diffuser 类 planning-augmented diffusion 的直接对比:MPD 是其中一个 baseline 但表现拉胯(RePR 1–39%),可能是 cost function 设计差。值得对照更强的 planning-as-inference baseline。

可信评估

Artifact 可获取性

  • 代码:项目主页提到 “Code”,但当前是 placeholder template(GitHub URL 留空),未实际开源。
  • 模型权重:未发布。
  • 训练细节:仅超参 + 配置。单卡 4090;AdamW, lr=1e-4, betas=(0.95, 0.999); warmup 500 steps; 各 benchmark 的 batch / epoch / demo 数 / image size 都列在 Tab. 6;trajectory length 全在 Tab. 7。比较完整。
  • 数据集:部分公开——用 Adroit / DexArt / MetaWorld / RoboFactory 公开 benchmark;自录 50 demo/task 的 real-world 数据(dual-arm PiPER)未提开源。

Claim 可验证性

  • RePR=100%:trajectory-steering 是硬性 inpainting,机制上保证(只要点 reachable),合理。
  • Coupled diffusion heads 优于 sliding-window(Tab 3):13 任务全胜,模式一致。
  • ⚠️ “Without any additional data or fine-tuning”:技术上对——没标注 correction trajectory;但 augmentation pipeline(扰动 + 七阶 spline 融合)本身是有 design choice 的”训练侧改动”,不是完全 free。
  • ⚠️ OOD generalization (0.4m 偏移 SuR=87%):单一 deviation 方式(垂直于 EE-target 连线),不能完全代表 OOD。
  • ⚠️ “Real-time online replanning”:每步都跑 GDH+LDH+temporal prediction,30Hz 实测可达(Real-world 跑通),但延迟没分项 profile。
  • “Coupled with VLMs and world models for more complex tasks”:纯口号,无任何实验。

Notes

  • 这篇是经典的”问题 framing 大于方法新颖度”的工作:core idea = “diffusion inpainting 用在 action 空间 + coarse-to-fine policy”,组件都不是新的,但组合在一起很 work。这种工作在 review 时容易被低估,但实际部署价值可能更高。
  • 真正的 scalability test 不在这篇里:referring point 的”质量”是上限——如果上游 planner(VLM / RoboRefer)出 noisy 或 wrong referring,ReV 的 obedience 会放大错误。需要看后续工作能否把 ReV 接到一个真实可用的 reasoning planner 上跑闭环。
  • 与 Octo 的对比有点不公平:Octo 是 language-conditioned,把 3D point 当成”自然语言指令”塞进去自然弱——这更像证明 “language conditioning 不适合精确空间约束” 而非证明 ReV 的设计胜出。
  • Coupled diffusion heads 本身(Tab 3,去掉 referring)的提升其实也很大,可能是个独立 contribution——但论文把它包装成”为 referring 设计”的一部分。如果未来想 cite 这篇,cite 的可能是 architecture 而不是 referring trick。
  • 项目主页是模板状态,无 demo 视频。期待后续上线后能验证 real-world 行为。

Rating

Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=N/A; github=N/A (无代码仓库)

分数:2 - Frontier 理由:Strengths 里的”问题 framing 重要 + 训练无需新标注”使得这篇在 closed-loop manipulation / referring-aware policy 这个细分方向里是一个具代表性的新提法,Tab 1/3 跨 13 任务全胜 sliding-window DP 让它具备被后续作为 baseline 的资格;但 Weaknesses 指出代码未开源、上游 planner 未端到端验证、infeasible-referring 的安全隐患均未解决,社区采纳度也未得到验证,离 Foundation(方向必读必引)还有距离。比 Archived 强在方法组合干净、实验覆盖 sim + dual-arm real-world 有信息量,值得在 referring-conditioned policy 的相关工作里持续关注。