KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

Summary

KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

核心: 一个 training-free 的视频前端，把长 robot rollout 浓缩成「motion-salient 关键帧 + pseudo-BEV 示意图 + 序列化 evidence tokens」，让通用 VLM 直接做失败检测/识别/定位/解释/纠正

方法: 光流峰值选关键帧 → GroundingDINO 检测 + Depth-Anything-V2 深度 → 每帧渲染非度量 BEV 示意图（ $X$ / $Z$ 轴 + 圆点尺寸∝置信度）→ 拼接 [ROBOT][PLAN][KF][CONTACT][GLOBAL_SCENE] tokens 喂给 Qwen2.5-VL

结果: RoboFAC simulation 上 training-free 比 vanilla Qwen2.5-VL-7B 涨 +36% FD / +18% FI / +33% FL；加 QLoRA 后超过 RoboFAC-7B fine-tuned baseline

Sources: paper | website | github

Rating: 2 - Frontier（representation-as-prompt 思路 simple 且 training-free，在 RoboFAC sim 上涨幅显著；但单 backbone 单 benchmark 验证，real-world 涨幅微弱且 qualitative，尚未定型为该方向的必读奠基）

Key Takeaways:

Representation-as-prompt: 不训新模型，把 evidence 显式 externalize 成 VLM 易读的 schematic（BEV 示意图 + token 化场景关系），让 off-the-shelf VLM 跨七种失败分析任务通用
Motion-saliency keyframe 是关键: 替换为 uniform sampling 在 FL 上掉 18 个点（0.74 → 0.56）——失败常发生在 motion 异常的瞬间，均匀采样会漏掉关键证据帧
Pseudo-BEV 是辅助而非主力: 移除 BEV 在 FE 上掉 0.05 ROUGE-L，但对 MCQ 影响较小；本质上是给 VLM 一个 “易读的示意 cheatsheet”，不是几何重建
训练-free 在 simulation 涨幅大、real-world 涨幅小: sim 上 +36 FD，real 上仅 +1 FD——暗示该 framework 真正补的是 sim 中 VLM 看不懂的 abstract 视觉，而 real-world 视觉本身已经在 VLM 训练分布内

Teaser. KITE pipeline 在真实双臂机器人 (DART) 上的失败解释 demo——左侧展示 optical flow / RGB 关键帧+检测 / depth / pseudo-BEV，右侧 VLM 引用 BEV 推理出 “杯子位置未变” 这个 grounding 结论。

Video. 完整 pipeline demo——从原始视频到 grounded 失败解释。

Motivation

长程操作中机器人会在平凡但要命的地方失败：gripper 偏轴滑落、handle 接触时机错误、双臂 handover 时空错位。要解释这些失败必须组合 where（layout / contact / 相对 pose）、when（execution 偏离的瞬间）、what（task intent）。这些 cue 在原始视频中往往分散在时间轴上、难以从 raw video 直接恢复。

VLM/LLM 已经是机器人通用推理接口，但当输入是 long raw execution video 时它们的优势被削弱：subtle failure cues 被淹没在 dense visual detail 中、temporal context 被稀释、关键证据没有以 VLM 易读的形式呈现。已有工作要么需 task-specific 训练（AHA、RoboFAC fine-tuned），要么基于 summarized memory（REFLECT）——尚无一个 training-free 的前端直接把 raw video 转成对 off-the-shelf VLM 友好的 evidence。KITE 想填的就是这个 representation interface 的空白。

❓ “VLM 看不懂 raw video” 这个 framing 是否成立？这个论点其实模糊地把 “context length 限制” 和 “时序推理能力不足” 混在一起。如果是前者，KITE 是合理的工程解；如果是后者，VLM 即使看了 KITE 总结的 8 帧，仍可能推理失败。论文没区分这两类失败模式。

Method: KITE Front-End

KITE 是一个 training-free、model-agnostic 的前端，把 long execution video 转成一个 compact bundle：motion-salient 关键帧 + 示意 pseudo-BEV + 序列化 evidence tokens。每个组件都是为了 externalize 一个 VLM 难以从 raw video 可靠推断的因子：when 用关键帧、where 用 pseudo-BEV 和 scene relations、what/how 用 robot-profile 和 task-context tokens。

Figure 2. KITE pipeline overview——raw video → 光流峰值选关键帧 → 每帧 OVD 检测机器人和物体 → 渲染 pseudo-BEV 示意图 → 配合 structured context 构成统一 VLM prompt → 回答多种失败分析 QA + 生成 grounded 解释和叙事。

Notation

视频 $V = {(I_{t}, t)}_{t = 1}^{T}$ ，选 $M$ 个关键帧

K = {(I_{t_{k}}, t_{k}, i_{k})}_{k = 1}^{M}

每个关键帧 $k$ 上有：(i) open-vocab 检测集 $O_{k} = {(b_{j}, c_{j}, s_{j})}$ （box + class + 置信度），(ii) 相对深度图 $D_{k}$ ；相邻关键帧之间还有 contact-transition token

γ_{k \to k + 1} \in {\textsc G ain, \textsc L oss, \textsc St ab l e}

总结 gripper 与最近物体的粗糙交互变化。

Keyframe Selection

固定关键帧 budget $M = 8$ ，优先 motion-salient 帧。计算逐帧 dense optical flow 平均幅度，时间维度 NMS 找局部峰值；不够 $M$ 个就用 uniform 采样补齐保证覆盖。

为何用 dense 而非 sparse flow：目标不是 correspondence tracking，而是稳定的 scene-wide saliency 信号——manipulation 失败常涉及 arm/gripper/object 的分布式 motion，sparse keypoints 在 texture-poor / 部分遮挡的机器人场景下不可靠。selector 是模块化的，可换 entropy-based 或 learned policy。

Per-Keyframe Perception

OVD: GroundingDINO (Swin-T) 检测物体和机械臂/夹爪，跨关键帧用 instance ID 关联；timestamp $t_{k}$ overlay 到 RGB 上，每帧最多 5 个检测。
Single-View Depth: Depth-Anything-V2-Large，仅作相对深度排序 cue，不是 metric geometry；超过 0.8 quantile 的极端值会被压制。
Contact-Transition Proxy: 当 gripper 和候选物体在相邻关键帧都被高置信度检测到时，记 $d_{k}$ 为 gripper 到最近物体的中心距离， $IoU_{k}$ 为 bbox IoU，定义

γ_{k \to k + 1} = ⎩ ⎨ ⎧ \textsc G ain, \textsc L oss, \textsc St ab l e, Δ IoU_{k} \geq τ_{IoU}, Δ d_{k} \leq - τ_{d} - Δ IoU_{k} \geq τ_{IoU}, Δ d_{k} \geq τ_{d} otherwise

阈值 $τ_{IoU} = 0.1, τ_{d} = 0.15$ 。这是个有意粗糙的信号——捕捉 interaction trend 趋势，不需要力觉 / 精确 contact estimation。

3D Scene Graph

每帧建一个 local scene graph $G_{k}$ ：节点是 $O_{k}$ 中的检测，3D 中心由相对深度 + 相机几何近似；pairwise 关系从

{\textsc l e f t_o f, \textsc ab o v e, \textsc in_f ro n t_o f}

中按 centroid offset 的符号和量级编码（带小容差）。跨帧通过 instance track 聚合到全局 graph。

❓ 用粗糙 3D（来自单目深度）替代纯 2D：作者论点是 “front/back ordering 在图像坐标下歧义”，但 Depth-Anything-V2 的 single-view depth 在 robot 工作空间里也很容易系统性偏差（反光面、薄物体、自遮挡）。论文没报这个 noisy depth 在 BEV 上是否引入伪影。

Pseudo-BEV Schematic（layout prior）

不做照片级重建，渲染 schematic、non-metric top-down BEV——每个关键帧一张：

固定坐标轴（ $X$ 向右、 $Z$ 向前）+ 箭头
每个 tracked object 一个圆，半径 ∝ 置信度 $s_{j}$ （clip 到 [3, 10] px）
物体类别标签 + 与 RGB overlay 一致的 instance ID
时间戳 $t_{k}$ 和关键帧 index

画在 $256 \times 256$ 白色 canvas 上。BEV 不是 metric map，是给 VLM 读的示意 cheatsheet，让 spatial relations 更易”看”出。

KITE Structured Context

序列化的 context prefix $T$ ：

T = morphology, gripper, workspace [ROBOT] description ∥ optional [PLAN] plan ∥ timestamps [KF i_{k} @ t_{k}] ∥ \textsc [CONTACT] γ G ain / L oss / St ab l e ∥ tracks & relations [GLOBAL_SCENE]

PLAN 字段在没有 plan steps 时省略。每个 QA：图像 bundle = $2 M$ 张图（ $M$ 个 RGB overlay + $M$ 个 BEV），text prompt = $T$ + 简短说明 “BEV 是 schematic, not to scale, 仅做 relative layout reasoning” + target question。

Failure Localization Prompting

要 VLM 输出 strict JSON：

{"candidates":[{"frame_num": INT, "confidence": FLOAT}, ...]}

最多 3 个候选 + $[0, 1]$ 置信度，简单 parser 取 top-1 作为 evidence frame。Narrative summary 阶段则给 VLM storyboard montage（所有关键帧 + BEV），让它生成引用 keyframe ID + 时间戳的 causal 叙事，并提一个 high-level + 一个 low-level correction。

由于所有 perception 仅在 $M$ 个关键帧上跑，总 cost 关于原始视频长度 $O (1)$ ，固定 $M$ 后线性。

Experiments

Setup

Benchmark: RoboFAC —— QA-style 失败分析 benchmark，60K 训练 QA + 10K sim test + 8K real test，8 类问题（TI / TP / FD / FI / FL / FE / HL / LL）；KITE 报除 TP 之外的 7 类
In-lab qualitative: RealMan dual-arm compound robot (DART) + ALOHA-2 stationary——zero-shot 测试 transfer 到双臂场景
Backbone: Qwen2.5-VL（3B / 7B）；reference baseline 含 Gemini-2.0、GPT-4o、RoboFAC-7B (RoboFAC fine-tuned)
Hardware: 全 single A6000，QLoRA rank=8、4-bit、1 epoch、lr=1e-5

MCQ 主结果

Table I. RoboFAC MCQ success rate—— $†$ 标记 RoboFAC-tuned 模型

Model	Sim FD	Sim FI	Sim FL	Real FD	Real FI	Real FL
Gemini-2.0	0.48	0.27	0.75	0.60	0.11	0.18
GPT-4o	0.64	0.21	0.71	0.96	0.43	0.52
Qwen2.5-VL-3B	0.38	0.04	0.51	0.04	0.03	0.07
Qwen2.5-VL-7B	0.52	0.26	0.22	0.83	0.38	0.72
KITE + Qwen2.5-VL-7B	0.88	0.44	0.55	0.84	0.43	0.74
RoboFAC-7B $†$	0.91	0.63	0.94	0.80	0.56	0.71
KITE + Qwen2.5-7B + QLoRA $†$	0.93	0.69	0.92	0.89	0.58	0.77

观察：

Sim 上 training-free KITE 涨幅惊人: vs vanilla Qwen2.5-VL-7B 涨 +36 FD / +18 FI / +33 FL
Real 上涨幅微弱: +1 FD / +5 FI / +2 FL —— 提示 vanilla VLM 已经在 real domain 表现尚可，KITE 主要补 sim 的 abstract 视觉
GPT-4o 在 real FD 上 0.96 全场最高——说明强 backbone 本身即可，但在 sim 上仍只有 0.64，KITE+7B 反而碾压 GPT-4o（0.88 vs 0.64）；这又是 sim/real domain shift 的体现
QLoRA 加成: 进一步把 KITE 推过 RoboFAC-7B 在 5/6 维度上

Free-language 结果（ROUGE-L / SBERT）

Table II. RoboFAC free-language metrics（缩写：TI/FE/HL/LL = Task ID / Failure Explanation / High-Level / Low-Level Correction）

Model	Sim TI	Sim FE	Sim HL	Sim LL	Sim TI SB	Sim FE SB	Sim HL SB	Sim LL SB
Qwen2.5-VL-7B	0.206	0.194	0.230	0.157	0.546	0.448	0.683	0.657
KITE + Qwen2.5-VL-7B	0.295	0.248	0.241	0.190	0.680	0.829	0.798	0.779
RoboFAC-7B $†$	0.323	0.299	0.301	0.245	0.701	0.842	0.808	0.794
KITE+QLoRA $†$	0.326	0.314	0.302	0.296	0.698	0.845	0.806	0.803

KITE training-free 在 SBERT 上最大提升是 FE 项（+0.38 sim），ROUGE-L 上各项都涨。SBERT 提升远大于 ROUGE-L 提升暗示生成内容在语义上更接近 GT，但 surface form 还有 gap——QLoRA 主要补这个 surface gap。

Ablations

Table III. Real-world 上 ablate pseudo-BEV 和 keyframe selector（ $↓$ 表示移除）

Config	FD	FI	FL	TI	FE	HL	LL
Full (KITE)	0.84	0.43	0.74	0.300	0.252	0.223	0.232
$↓$ pseudo-BEV	0.81	0.37	0.70	0.302	0.202	0.221	0.228
uniform keyframe	0.69	0.33	0.56	0.298	0.189	0.217	0.190

Pseudo-BEV 主要影响 FE（-0.05 ROUGE-L），对 MCQ 影响 3-6 pt
Motion keyframe selector 比 uniform 重要得多——FL 掉 18 点，FD 掉 15 点；symptomatic 失败往往在 motion 异常瞬间，uniform 采样会错过证据帧

Qualitative

Figure 3. Sim 定性（PegInsertionSide）——每个 panel 展示 RGB+检测 / optical flow / pseudo-BEV / depth / KITE context excerpt / 失败定位输出 / narrative summary

Figure 4. Real-world ALOHA-2 双臂 handover——物体在 handover 中被 drop，KITE 的 narrative 显式 tie 失败到 robot embodiment（双臂协调）和观察序列。Robot-profile 信息在 structured context 中的价值在这里体现

关联工作

基于

Qwen2.5-VL: 主 backbone，方法本身完全依赖 VLM 的 in-context 多图推理能力
GroundingDINO: open-vocabulary detection 模块
Depth-Anything-V2: 单目相对深度，BEV 渲染 + 3D scene graph 构建的几何 cue
QLoRA: 轻量 fine-tune 方案

对比

REFLECT (Liu et al. 2023, CoRL): 同样做失败 retrospection，但基于 multisensory log 的 LLM 总结；KITE 把 representation 锁定在 video front-end 这一层
AHA (Duan et al. 2025, ICLR): 训练 failure-specific VLM；KITE 主张 training-free + 通用 backbone
RoboFAC-7B: KITE 直接对标的 fine-tuned baseline，用 KITE+QLoRA 在多数指标上反超

方法相关

Talk2BEV（Choudhary et al. ICRA 2024）: BEV-as-prompt 在 driving 中的先例；KITE 把 BEV 概念迁到 manipulation 失败诊断
3D scene graphs for task grounding (SayPlan): 同样用结构化场景图给 LLM 注入 inductive bias
Set-of-Marks / 视觉 prompt overlay: 概念上同源——把 VLM 难以推理的信息 externalize 到图像 overlay 上

论文点评

Strengths

Representation engineering 替代 fine-tuning ——用 schematic + serialized tokens 把 VLM 不擅长的 spatiotemporal 信息 externalize 出来，方向上和 set-of-marks / scene-graph-as-prompt 一脉相承，simple 且无需训练
Ablation 设计合理且 negative-result 诚实 ——Pseudo-BEV 在 MCQ 上仅小幅贡献而非 “banner contribution” 被如实报告；motion keyframe vs uniform 的差距是论文最 informative 的对比
失败定位的 strict-JSON 协议值得复用——很多 VLM-as-judge / VLM-as-detector 的工作输出 free text 难以下游消费，KITE 用 schema + parser 把 frame-level 输出 commit 成 structured 是工程上的好实践
Cost 关于视频长度 $O (1)$ —— 固定 $M = 8$ 后无论视频多长 perception 成本不变，对 long-horizon rollouts 有结构性优势

Weaknesses

Sim vs Real 涨幅差距巨大但未深究 ——Sim 上 +36 FD，Real 上 +1 FD。论文没分析为什么——是 vanilla VLM 在 real 上已经”够好”，还是 KITE 的 BEV/keyframe 抽象在 sim 的非真实纹理上反而更帮助？这是 reviewer 必问的点
Qualitative real-world 评估非常弱 ——DART 和 ALOHA-2 的结果是定性的、单 case 展示，没有量化 user study 或第二位 annotator。论文自己也承认这是 limitation
Pseudo-BEV 作为”为 VLM 渲染的示意图”假设没有正面验证 ——作者声称 BEV 比照片级重建更易被 VLM 解析，但没有对比实验（如 BEV vs 真实 top-down render）。“VLM 看示意图更易”是个可证伪假说，应该实验
依赖 GroundingDINO + Depth-Anything-V2 的 failure cascade 没分析 ——OVD 漏检或 depth 错误会直接污染 BEV 和 contact-transition token，但论文没报错误传播分析
3D scene graph 的关系集合极简（仅 3 种） ——on_top_of、inside、touching 这些对 manipulation 至关重要的 predicate 全部缺失。limitation 章节自己承认了，但这其实直接限制了能诊断的失败类别

可信评估

Artifact 可获取性

代码: inference + evaluation 已开源，QLoRA 训练脚本未发布（GitHub README 的 ToDo list 明确：“QLoRA fine-tuning scripts & training recipes” 未完成）
模型权重: m80hz/KITE-7B-Instruct 已在 HuggingFace 发布
训练细节: QLoRA 超参完整（rank=8, 4-bit, 1 epoch, lr=1e-5），但训练数据配比、采样策略未细化披露
数据集: 完全开源——RoboFAC 原始数据公开（含已知 path mismatch issue MINT-SJTU/RoboFAC#2）

Claim 可验证性

✅ Training-free KITE + Qwen2.5-VL-7B 在 sim FD/FI/FL 上比 vanilla 涨 +36/+18/+33：grounding 在 Table I，benchmark 公开，可复现
✅ Pseudo-BEV 移除后 FE 掉 0.05 ROUGE-L：Table III ablation 直接支持
✅ Motion keyframe > uniform keyframe：Table III FL 0.74 → 0.56 显著
⚠️ KITE 在 real dual-arm 上”transfers well”：仅 2 个 qualitative case（DART, ALOHA-2 各一），样本量不足以支撑 generalization claim
⚠️ “Pseudo-BEV is more parseable for VLMs than photorealistic reconstructions”：方法 motivation 中给出的 design rationale，但论文未做实证比较——是 design hypothesis 而非 verified claim
⚠️ “代表性 representation interface”: 作者把 KITE 定位为”representation problem”的解，但只在 RoboFAC 一个 benchmark 上量化评估，不能 claim general representation interface

Notes

Insight: 这是典型的”prompt engineering 升级到 representation engineering”的工作——核心 claim 不是新模型/新数据/新算法，而是”VLM 能力天花板被 input representation 卡住，换个表示就能涨大”。这种工作的价值取决于该 representation 是否 generalize 到其他 backbone 和其他 task。论文只验证了一个 benchmark 一个 backbone，generalization 是 open question
可借鉴: BEV-as-schematic 的设计思路（圆点尺寸编码置信度、固定坐标轴 + arrow、instance ID 跨 RGB/BEV 一致）对任何想给 VLM 喂空间信息的工作都是 good template
可质疑: Sim/real 涨幅差距是否暗示 KITE 实际”修的”是 sim 视觉的 distribution gap 而非 VLM 失败推理的 representation gap？如果换一个在 sim 上预训练更好的 VLM，涨幅可能消失
后续可做: 拿同一套 KITE front-end 跑 GPT-4o / Gemini-2.0 / Claude 等 closed-source backbone，看涨幅是否一致——能验证这是 representation 的功劳还是 Qwen 特定的能力补丁
与我研究的 connect: KITE 的”keyframe + structured context”思路对 long-horizon video understanding 普遍适用——video LLM 处理 long video 的核心痛点都是 temporal context 稀释，KITE 的 motion saliency + token serialize 是一种简单可借鉴的 distillation 协议

Rating

Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=0; github 6⭐ / forks=0 / 90d commits=6 / pushed 11d ago

分数：2 - Frontier 理由：training-free 的 representation-as-prompt 前端在 RoboFAC sim 上 FD/FI/FL 涨 +36/+18/+33 并靠 QLoRA 反超 RoboFAC-7B，是失败分析方向一个值得跟进的 frontier baseline；但只在单一 benchmark + 单一 backbone 上做量化验证，real-world 涨幅仅 +1 FD 且仅 2 个 qualitative case，尚未证明 representation 的跨 backbone 普适性——还没到方向必读奠基的 Foundation 档，但也不是 incremental/被取代的 Archived。

MindFlow

Explorer

KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

Summary

Motivation

Method: KITE Front-End

Notation

Keyframe Selection

Per-Keyframe Perception

3D Scene Graph

Pseudo-BEV Schematic（layout prior）

KITE Structured Context

Failure Localization Prompting

Experiments

Setup

MCQ 主结果

Free-language 结果（ROUGE-L / SBERT）

Ablations

Qualitative

关联工作

基于

对比

方法相关

论文点评

Strengths

Weaknesses

可信评估

Artifact 可获取性

Claim 可验证性

Notes

Rating

Table of Contents