Summary

KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

  • 核心: 一个 training-free 的视频前端,把长 robot rollout 浓缩成「motion-salient 关键帧 + pseudo-BEV 示意图 + 序列化 evidence tokens」,让通用 VLM 直接做失败检测/识别/定位/解释/纠正
  • 方法: 光流峰值选关键帧 → GroundingDINO 检测 + Depth-Anything-V2 深度 → 每帧渲染非度量 BEV 示意图(/ 轴 + 圆点尺寸∝置信度)→ 拼接 [ROBOT][PLAN][KF][CONTACT][GLOBAL_SCENE] tokens 喂给 Qwen2.5-VL
  • 结果: RoboFAC simulation 上 training-free 比 vanilla Qwen2.5-VL-7B 涨 +36% FD / +18% FI / +33% FL;加 QLoRA 后超过 RoboFAC-7B fine-tuned baseline
  • Sources: paper | website | github
  • Rating: 2 - Frontier(representation-as-prompt 思路 simple 且 training-free,在 RoboFAC sim 上涨幅显著;但单 backbone 单 benchmark 验证,real-world 涨幅微弱且 qualitative,尚未定型为该方向的必读奠基)

Key Takeaways:

  1. Representation-as-prompt: 不训新模型,把 evidence 显式 externalize 成 VLM 易读的 schematic(BEV 示意图 + token 化场景关系),让 off-the-shelf VLM 跨七种失败分析任务通用
  2. Motion-saliency keyframe 是关键: 替换为 uniform sampling 在 FL 上掉 18 个点(0.74 → 0.56)——失败常发生在 motion 异常的瞬间,均匀采样会漏掉关键证据帧
  3. Pseudo-BEV 是辅助而非主力: 移除 BEV 在 FE 上掉 0.05 ROUGE-L,但对 MCQ 影响较小;本质上是给 VLM 一个 “易读的示意 cheatsheet”,不是几何重建
  4. 训练-free 在 simulation 涨幅大、real-world 涨幅小: sim 上 +36 FD,real 上仅 +1 FD——暗示该 framework 真正补的是 sim 中 VLM 看不懂的 abstract 视觉,而 real-world 视觉本身已经在 VLM 训练分布内

Teaser. KITE pipeline 在真实双臂机器人 (DART) 上的失败解释 demo——左侧展示 optical flow / RGB 关键帧+检测 / depth / pseudo-BEV,右侧 VLM 引用 BEV 推理出 “杯子位置未变” 这个 grounding 结论。

Video. 完整 pipeline demo——从原始视频到 grounded 失败解释。


Motivation

长程操作中机器人会在平凡但要命的地方失败:gripper 偏轴滑落、handle 接触时机错误、双臂 handover 时空错位。要解释这些失败必须组合 where(layout / contact / 相对 pose)、when(execution 偏离的瞬间)、what(task intent)。这些 cue 在原始视频中往往分散在时间轴上、难以从 raw video 直接恢复

VLM/LLM 已经是机器人通用推理接口,但当输入是 long raw execution video 时它们的优势被削弱:subtle failure cues 被淹没在 dense visual detail 中、temporal context 被稀释、关键证据没有以 VLM 易读的形式呈现。已有工作要么需 task-specific 训练(AHA、RoboFAC fine-tuned),要么基于 summarized memory(REFLECT)——尚无一个 training-free 的前端直接把 raw video 转成对 off-the-shelf VLM 友好的 evidence。KITE 想填的就是这个 representation interface 的空白。

❓ “VLM 看不懂 raw video” 这个 framing 是否成立?这个论点其实模糊地把 “context length 限制” 和 “时序推理能力不足” 混在一起。如果是前者,KITE 是合理的工程解;如果是后者,VLM 即使看了 KITE 总结的 8 帧,仍可能推理失败。论文没区分这两类失败模式。


Method: KITE Front-End

KITE 是一个 training-free、model-agnostic 的前端,把 long execution video 转成一个 compact bundle:motion-salient 关键帧 + 示意 pseudo-BEV + 序列化 evidence tokens。每个组件都是为了 externalize 一个 VLM 难以从 raw video 可靠推断的因子:when 用关键帧、where 用 pseudo-BEV 和 scene relations、what/how 用 robot-profile 和 task-context tokens。

Figure 2. KITE pipeline overview——raw video → 光流峰值选关键帧 → 每帧 OVD 检测机器人和物体 → 渲染 pseudo-BEV 示意图 → 配合 structured context 构成统一 VLM prompt → 回答多种失败分析 QA + 生成 grounded 解释和叙事。

Notation

视频 ,选 个关键帧

每个关键帧 上有:(i) open-vocab 检测集 (box + class + 置信度),(ii) 相对深度图 ;相邻关键帧之间还有 contact-transition token

总结 gripper 与最近物体的粗糙交互变化。

Keyframe Selection

固定关键帧 budget ,优先 motion-salient 帧。计算逐帧 dense optical flow 平均幅度,时间维度 NMS 找局部峰值;不够 个就用 uniform 采样补齐保证覆盖。

为何用 dense 而非 sparse flow:目标不是 correspondence tracking,而是稳定的 scene-wide saliency 信号——manipulation 失败常涉及 arm/gripper/object 的分布式 motion,sparse keypoints 在 texture-poor / 部分遮挡的机器人场景下不可靠。selector 是模块化的,可换 entropy-based 或 learned policy。

Per-Keyframe Perception

  • OVD: GroundingDINO (Swin-T) 检测物体和机械臂/夹爪,跨关键帧用 instance ID 关联;timestamp overlay 到 RGB 上,每帧最多 5 个检测。
  • Single-View Depth: Depth-Anything-V2-Large,仅作 相对 深度排序 cue,不是 metric geometry;超过 0.8 quantile 的极端值会被压制。
  • Contact-Transition Proxy: 当 gripper 和候选物体在相邻关键帧都被高置信度检测到时,记 为 gripper 到最近物体的中心距离, 为 bbox IoU,定义

阈值 。这是个有意粗糙的信号——捕捉 interaction trend 趋势,不需要力觉 / 精确 contact estimation。

3D Scene Graph

每帧建一个 local scene graph :节点是 中的检测,3D 中心由相对深度 + 相机几何近似;pairwise 关系从

中按 centroid offset 的符号和量级编码(带小容差)。跨帧通过 instance track 聚合到全局 graph。

❓ 用粗糙 3D(来自单目深度)替代纯 2D:作者论点是 “front/back ordering 在图像坐标下歧义”,但 Depth-Anything-V2 的 single-view depth 在 robot 工作空间里也很容易系统性偏差(反光面、薄物体、自遮挡)。论文没报这个 noisy depth 在 BEV 上是否引入伪影。

Pseudo-BEV Schematic(layout prior)

不做照片级重建,渲染 schematic、non-metric top-down BEV——每个关键帧一张:

  • 固定坐标轴( 向右、 向前)+ 箭头
  • 每个 tracked object 一个圆,半径 ∝ 置信度 (clip 到 [3, 10] px)
  • 物体类别标签 + 与 RGB overlay 一致的 instance ID
  • 时间戳 和关键帧 index

画在 白色 canvas 上。BEV 不是 metric map,是给 VLM 读的示意 cheatsheet,让 spatial relations 更易”看”出。

KITE Structured Context

序列化的 context prefix

PLAN 字段在没有 plan steps 时省略。每个 QA:图像 bundle = 张图( 个 RGB overlay + 个 BEV),text prompt = + 简短说明 “BEV 是 schematic, not to scale, 仅做 relative layout reasoning” + target question。

Failure Localization Prompting

要 VLM 输出 strict JSON

{"candidates":[{"frame_num": INT, "confidence": FLOAT}, ...]}

最多 3 个候选 + 置信度,简单 parser 取 top-1 作为 evidence frame。Narrative summary 阶段则给 VLM storyboard montage(所有关键帧 + BEV),让它生成引用 keyframe ID + 时间戳的 causal 叙事,并提一个 high-level + 一个 low-level correction。

由于所有 perception 仅在 个关键帧上跑,总 cost 关于原始视频长度 ,固定 后线性。


Experiments

Setup

  • Benchmark: RoboFAC —— QA-style 失败分析 benchmark,60K 训练 QA + 10K sim test + 8K real test,8 类问题(TI / TP / FD / FI / FL / FE / HL / LL);KITE 报除 TP 之外的 7 类
  • In-lab qualitative: RealMan dual-arm compound robot (DART) + ALOHA-2 stationary——zero-shot 测试 transfer 到双臂场景
  • Backbone: Qwen2.5-VL(3B / 7B);reference baseline 含 Gemini-2.0、GPT-4o、RoboFAC-7B (RoboFAC fine-tuned)
  • Hardware: 全 single A6000,QLoRA rank=8、4-bit、1 epoch、lr=1e-5

MCQ 主结果

Table I. RoboFAC MCQ success rate—— 标记 RoboFAC-tuned 模型

ModelSim FDSim FISim FLReal FDReal FIReal FL
Gemini-2.00.480.270.750.600.110.18
GPT-4o0.640.210.710.960.430.52
Qwen2.5-VL-3B0.380.040.510.040.030.07
Qwen2.5-VL-7B0.520.260.220.830.380.72
KITE + Qwen2.5-VL-7B0.880.440.550.840.430.74
RoboFAC-7B 0.910.630.940.800.560.71
KITE + Qwen2.5-7B + QLoRA 0.930.690.920.890.580.77

观察:

  • Sim 上 training-free KITE 涨幅惊人: vs vanilla Qwen2.5-VL-7B 涨 +36 FD / +18 FI / +33 FL
  • Real 上涨幅微弱: +1 FD / +5 FI / +2 FL —— 提示 vanilla VLM 已经在 real domain 表现尚可,KITE 主要补 sim 的 abstract 视觉
  • GPT-4o 在 real FD 上 0.96 全场最高——说明强 backbone 本身即可,但在 sim 上仍只有 0.64,KITE+7B 反而碾压 GPT-4o(0.88 vs 0.64);这又是 sim/real domain shift 的体现
  • QLoRA 加成: 进一步把 KITE 推过 RoboFAC-7B 在 5/6 维度上

Free-language 结果(ROUGE-L / SBERT)

Table II. RoboFAC free-language metrics(缩写:TI/FE/HL/LL = Task ID / Failure Explanation / High-Level / Low-Level Correction)

ModelSim TISim FESim HLSim LLSim TI SBSim FE SBSim HL SBSim LL SB
Qwen2.5-VL-7B0.2060.1940.2300.1570.5460.4480.6830.657
KITE + Qwen2.5-VL-7B0.2950.2480.2410.1900.6800.8290.7980.779
RoboFAC-7B 0.3230.2990.3010.2450.7010.8420.8080.794
KITE+QLoRA 0.3260.3140.3020.2960.6980.8450.8060.803

KITE training-free 在 SBERT 上最大提升是 FE 项(+0.38 sim),ROUGE-L 上各项都涨。SBERT 提升远大于 ROUGE-L 提升暗示生成内容在语义上更接近 GT,但 surface form 还有 gap——QLoRA 主要补这个 surface gap。

Ablations

Table III. Real-world 上 ablate pseudo-BEV 和 keyframe selector 表示移除)

ConfigFDFIFLTIFEHLLL
Full (KITE)0.840.430.740.3000.2520.2230.232
pseudo-BEV0.810.370.700.3020.2020.2210.228
uniform keyframe0.690.330.560.2980.1890.2170.190
  • Pseudo-BEV 主要影响 FE(-0.05 ROUGE-L),对 MCQ 影响 3-6 pt
  • Motion keyframe selector 比 uniform 重要得多——FL 掉 18 点,FD 掉 15 点;symptomatic 失败往往在 motion 异常瞬间,uniform 采样会错过证据帧

Qualitative

Figure 3. Sim 定性(PegInsertionSide)——每个 panel 展示 RGB+检测 / optical flow / pseudo-BEV / depth / KITE context excerpt / 失败定位输出 / narrative summary

Figure 4. Real-world ALOHA-2 双臂 handover——物体在 handover 中被 drop,KITE 的 narrative 显式 tie 失败到 robot embodiment(双臂协调)和观察序列。Robot-profile 信息在 structured context 中的价值在这里体现


关联工作

基于

  • Qwen2.5-VL: 主 backbone,方法本身完全依赖 VLM 的 in-context 多图推理能力
  • GroundingDINO: open-vocabulary detection 模块
  • Depth-Anything-V2: 单目相对深度,BEV 渲染 + 3D scene graph 构建的几何 cue
  • QLoRA: 轻量 fine-tune 方案

对比

  • REFLECT (Liu et al. 2023, CoRL): 同样做失败 retrospection,但基于 multisensory log 的 LLM 总结;KITE 把 representation 锁定在 video front-end 这一层
  • AHA (Duan et al. 2025, ICLR): 训练 failure-specific VLM;KITE 主张 training-free + 通用 backbone
  • RoboFAC-7B: KITE 直接对标的 fine-tuned baseline,用 KITE+QLoRA 在多数指标上反超

方法相关

  • Talk2BEV(Choudhary et al. ICRA 2024): BEV-as-prompt 在 driving 中的先例;KITE 把 BEV 概念迁到 manipulation 失败诊断
  • 3D scene graphs for task grounding (SayPlan): 同样用结构化场景图给 LLM 注入 inductive bias
  • Set-of-Marks / 视觉 prompt overlay: 概念上同源——把 VLM 难以推理的信息 externalize 到图像 overlay 上

论文点评

Strengths

  1. Representation engineering 替代 fine-tuning ——用 schematic + serialized tokens 把 VLM 不擅长的 spatiotemporal 信息 externalize 出来,方向上和 set-of-marks / scene-graph-as-prompt 一脉相承,simple 且无需训练
  2. Ablation 设计合理且 negative-result 诚实 ——Pseudo-BEV 在 MCQ 上仅小幅贡献而非 “banner contribution” 被如实报告;motion keyframe vs uniform 的差距是论文最 informative 的对比
  3. 失败定位的 strict-JSON 协议值得复用——很多 VLM-as-judge / VLM-as-detector 的工作输出 free text 难以下游消费,KITE 用 schema + parser 把 frame-level 输出 commit 成 structured 是工程上的好实践
  4. Cost 关于视频长度 —— 固定 后无论视频多长 perception 成本不变,对 long-horizon rollouts 有结构性优势

Weaknesses

  1. Sim vs Real 涨幅差距巨大但未深究 ——Sim 上 +36 FD,Real 上 +1 FD。论文没分析为什么——是 vanilla VLM 在 real 上已经”够好”,还是 KITE 的 BEV/keyframe 抽象在 sim 的非真实纹理上反而更帮助?这是 reviewer 必问的点
  2. Qualitative real-world 评估非常弱 ——DART 和 ALOHA-2 的结果是定性的、单 case 展示,没有量化 user study 或第二位 annotator。论文自己也承认这是 limitation
  3. Pseudo-BEV 作为”为 VLM 渲染的示意图”假设没有正面验证 ——作者声称 BEV 比照片级重建更易被 VLM 解析,但没有对比实验(如 BEV vs 真实 top-down render)。“VLM 看示意图更易”是个可证伪假说,应该实验
  4. 依赖 GroundingDINO + Depth-Anything-V2 的 failure cascade 没分析 ——OVD 漏检或 depth 错误会直接污染 BEV 和 contact-transition token,但论文没报错误传播分析
  5. 3D scene graph 的关系集合极简(仅 3 种) ——on_top_ofinsidetouching 这些对 manipulation 至关重要的 predicate 全部缺失。limitation 章节自己承认了,但这其实直接限制了能诊断的失败类别

可信评估

Artifact 可获取性

  • 代码: inference + evaluation 已开源,QLoRA 训练脚本未发布(GitHub README 的 ToDo list 明确:“QLoRA fine-tuning scripts & training recipes” 未完成)
  • 模型权重: m80hz/KITE-7B-Instruct 已在 HuggingFace 发布
  • 训练细节: QLoRA 超参完整(rank=8, 4-bit, 1 epoch, lr=1e-5),但训练数据配比、采样策略未细化披露
  • 数据集: 完全开源——RoboFAC 原始数据公开(含已知 path mismatch issue MINT-SJTU/RoboFAC#2

Claim 可验证性

  • Training-free KITE + Qwen2.5-VL-7B 在 sim FD/FI/FL 上比 vanilla 涨 +36/+18/+33:grounding 在 Table I,benchmark 公开,可复现
  • Pseudo-BEV 移除后 FE 掉 0.05 ROUGE-L:Table III ablation 直接支持
  • Motion keyframe > uniform keyframe:Table III FL 0.74 → 0.56 显著
  • ⚠️ KITE 在 real dual-arm 上”transfers well”:仅 2 个 qualitative case(DART, ALOHA-2 各一),样本量不足以支撑 generalization claim
  • ⚠️ “Pseudo-BEV is more parseable for VLMs than photorealistic reconstructions”:方法 motivation 中给出的 design rationale,但论文未做实证比较——是 design hypothesis 而非 verified claim
  • ⚠️ “代表性 representation interface”: 作者把 KITE 定位为”representation problem”的解,但只在 RoboFAC 一个 benchmark 上量化评估,不能 claim general representation interface

Notes

  • Insight: 这是典型的”prompt engineering 升级到 representation engineering”的工作——核心 claim 不是新模型/新数据/新算法,而是”VLM 能力天花板被 input representation 卡住,换个表示就能涨大”。这种工作的价值取决于该 representation 是否 generalize 到其他 backbone 和其他 task。论文只验证了一个 benchmark 一个 backbone,generalization 是 open question
  • 可借鉴: BEV-as-schematic 的设计思路(圆点尺寸编码置信度、固定坐标轴 + arrow、instance ID 跨 RGB/BEV 一致)对任何想给 VLM 喂空间信息的工作都是 good template
  • 可质疑: Sim/real 涨幅差距是否暗示 KITE 实际”修的”是 sim 视觉的 distribution gap 而非 VLM 失败推理的 representation gap?如果换一个在 sim 上预训练更好的 VLM,涨幅可能消失
  • 后续可做: 拿同一套 KITE front-end 跑 GPT-4o / Gemini-2.0 / Claude 等 closed-source backbone,看涨幅是否一致——能验证这是 representation 的功劳还是 Qwen 特定的能力补丁
  • 与我研究的 connect: KITE 的”keyframe + structured context”思路对 long-horizon video understanding 普遍适用——video LLM 处理 long video 的核心痛点都是 temporal context 稀释,KITE 的 motion saliency + token serialize 是一种简单可借鉴的 distillation 协议

Rating

Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=0; github 6⭐ / forks=0 / 90d commits=6 / pushed 11d ago

分数:2 - Frontier 理由:training-free 的 representation-as-prompt 前端在 RoboFAC sim 上 FD/FI/FL 涨 +36/+18/+33 并靠 QLoRA 反超 RoboFAC-7B,是失败分析方向一个值得跟进的 frontier baseline;但只在单一 benchmark + 单一 backbone 上做量化验证,real-world 涨幅仅 +1 FD 且仅 2 个 qualitative case,尚未证明 representation 的跨 backbone 普适性——还没到方向必读奠基的 Foundation 档,但也不是 incremental/被取代的 Archived。