Summary
提出 Behavior Judge (BJudge) 框架,通过 multi-rollout “wide scaling” + 结构化轨迹评估,在 OSWorld 上达到 72.6% 超越人类水平(72.36%),证明 test-time scaling 在 computer use agent 中的巨大潜力。
Problem & Motivation
当前 computer use agent 在 long-horizon 任务上可靠性差,根本原因是错误累积、延迟反馈和环境噪声。单次执行(single rollout)方差极高。先前工作探索了 within-rollout scaling(step-wise 改进),但收益有限。核心瓶颈在于评估:agent 执行轨迹信息密集、多模态、难以系统性解读,如何从多个完整轨迹中选出最佳是关键未解问题。
Method
核心思想:Wide scaling——生成多个独立 rollout,通过结构化评估选择最优,而非改进单次执行过程。
Behavior Narrative Generation:将轨迹转化为紧凑摘要。对每个 transition(前截图→动作→后截图),VLM 提取与任务相关的事实,过滤无关细节。加入 visual augmentation(指针标记、裁剪放大)增强像素级交互的精度。最终 narrative 仅保留首尾截图 + 推导出的事实。
Comparative Behavior Evaluator:VLM 在单轮中对所有 narrative 进行 multiple-choice 比较,选出最佳轨迹。Prompt 要求引用事实并对比候选行为。关键设计:比较式评估显著优于独立打分。
Agent S3:基于 Agent S2 改进——(a) 集成 coding agent,支持程序化编辑与 GUI 操作并行;(b) flat planning 替代层级 manager-worker,减少 52.3% LLM 调用和 62.4% 延迟。
Key Results
- OSWorld(361 Ubuntu 任务,100-step):Agent S3 单独 62.6%,+BJudge(GPT-5) 69.9%,+BJudge(GPT-5+Opus 4.5) 72.6% 超人类水平
- WindowsAgentArena: 56.6%(+6.4%)
- AndroidWorld: 71.6%(+3.5%)
- BJudge 轨迹选择准确率 78.4%,与人类对齐率 92.8%
- Behavior narrative 显著优于 screenshot-only(56.0%)、trajectory summary(55.0%)、naive captioning(56.8%)
- Flat planning vs hierarchical:LLM 调用减少 52.3%,时间减少 62.4%
- 成本:0.11(narrative)+ $0.03(judging)
Strengths & Weaknesses
Strengths:
- 核心 insight 深刻且简洁:有效 scaling 需要结构化的轨迹表示和选择,而非简单增加 rollout
- Behavior narrative 是精妙的设计——将多模态轨迹压缩为可比较的结构化文本,大幅降低评估复杂度
- 比较式评估优于独立打分,符合人类判断直觉
- 超越人类水平是里程碑式结果,证明 test-time compute scaling 在 agent 领域的潜力
- Flat planning 替代 hierarchical 是反常识但有效的简化,呼应”简洁方法优先”原则
- 跨 OS 泛化(Ubuntu/Windows/Android)证明方法的通用性
Weaknesses:
- 假设独立 rollout 从相同初始状态开始,在真实桌面环境中不成立(状态污染问题)
- 多 rollout 间共享在线资源(邮件、云存储)会造成交叉干扰
- VLM 生成 behavior narrative 时存在 hallucination,尤其在细粒度视觉细节上
- 依赖强力 VLM(GPT-5、Opus 4.5)作为 judge,成本和可及性是限制
- 未探索 rollout 数量与收益的 scaling law,多少 rollout 是最优的?
影响: 开辟了 computer use agent 的 test-time scaling 新范式,Behavior Judge 框架可泛化到其他 sequential decision-making 场景。
Mind Map
mindmap root((Scaling Agents)) Problem 单次执行高方差 轨迹评估困难 Within-rollout scaling 收益有限 Method Wide Scaling Behavior Narrative Comparative Evaluator Agent S3 + Flat Planning Results OSWorld 72.6% 超人类 跨 OS 泛化 成本 $0.86/task
Notes
- 这篇与前两篇形成有趣对比:UI-TARS-2 和 ComputerRL 靠 RL 训练提升模型能力,本文靠 test-time scaling 提升推理能力。两个方向正交且可组合
- Behavior narrative 的思路可以迁移到 VLN——将导航轨迹转为结构化描述用于评估和选择
- Flat planning > hierarchical planning 是重要经验,在 agent 设计中不应盲目增加复杂度
- 未来关键问题:RL training scaling vs test-time scaling 的 Pareto frontier 在哪里?