Summary
提出 OSWorld,首个可扩展的真实计算机环境 benchmark,支持 Ubuntu/Windows/macOS 上的 369 个开放式计算机任务,基于 execution 的评测揭示最强模型仅 12.24% 成功率(人类 72.36%),主要瓶颈在 GUI grounding 和 operational knowledge。
Problem & Motivation
现有 computer-use agent benchmark 存在三大局限:(1) 基于静态/模拟环境而非真实 OS;(2) 任务局限于单一应用或简单操作;(3) 评测依赖 action matching 而非 execution-based 验证。真实场景中 agent 需要跨应用、跨 OS 完成开放式任务,现有 benchmark 无法有效衡量这一能力。
Method
环境设计
- 真实 OS 环境:基于虚拟机,支持 Ubuntu、Windows、macOS
- 可扩展架构:支持 VirtualBox、AWS、Azure 等平台
- 并行执行:支持多 VM 并行评测以提升效率
Benchmark 构建
- 369 个任务(+ 43 个 Windows 分析任务),涵盖:
- 真实 web 和 desktop 应用操作
- OS 文件 I/O 操作
- 跨应用 workflow
- 134 个 execution-based 评测函数:基于任务完成后的系统状态验证
- 每个任务包含详细的 initial state configuration 和 evaluation script
评测方法
- Execution-based evaluation:不看 agent 的操作步骤,只验证最终系统状态是否满足任务要求
- 支持 screenshot 和 accessibility tree 两种 observation 模式
- 提供 verified 和 self-reported 两个 leaderboard track
Key Results
- 人类表现:72.36% 成功率
- 最强模型(发表时):12.24% 成功率
- GPT-4V / Claude / Gemini:均在低水平,主要失败模式:
- GUI grounding 能力不足(无法准确定位和操作 UI 元素)
- Operational knowledge 缺乏(不知道如何在特定应用中完成任务)
- 后续 UI-TARS-72B 在 50 步限制下达到 24.6%
- 更高分辨率 screenshot 可提升性能
- Trajectory history 有帮助,但 agent 对 UI 布局变化缺乏 robustness
Strengths & Weaknesses
Strengths:
- 真实环境:首个在真实 OS 上评测的 benchmark,ecological validity 高
- Execution-based evaluation:比 action matching 更可靠,允许不同路径达到同一目标
- 跨 OS 支持:Ubuntu/Windows/macOS 覆盖主流平台
- 可扩展设计:支持社区持续贡献新任务
- 影响力大:已成为 computer-use agent 领域的标准 benchmark
Weaknesses:
- 369 个任务数量相对有限,可能不足以覆盖长尾场景
- 初始 evaluation 中模型性能过低(<15%),可能存在 benchmark 难度偏大问题
- VM-based 设计引入延迟,影响 agent 与环境的交互效率
- 部分任务依赖特定 web 服务,长期可复现性存疑
- 缺少对 multi-turn interaction 和 error recovery 的系统评估
影响: 确立了 computer-use agent 评测的黄金标准。几乎所有后续 agent 工作(UI-TARS, Claude computer use 等)都以 OSWorld 为核心评测 benchmark。
Mind Map
mindmap root((OSWorld)) Problem 现有 benchmark 非真实环境 任务过于简单 评测依赖 action matching Method 真实 OS 环境 Ubuntu/Windows/macOS VM-based 可扩展 369 个开放式任务 Web + Desktop 应用 文件 I/O 跨应用 workflow Execution-based evaluation 134 评测函数 验证最终状态 Results 人类 72.36% vs 最强模型 12.24% 主要瓶颈: GUI grounding + operational knowledge Screenshot 分辨率提升有帮助
Notes
- OSWorld 揭示的 GUI grounding 瓶颈直接催生了 UI-TARS 的 perception 增强设计
- Execution-based evaluation 是关键设计决策——允许 agent 用不同策略达到同一目标,更接近真实评测
- 12.24% vs 72.36% 的巨大差距表明 computer-use 仍是一个远未解决的问题
- 后续 OSWorld-Verified 版本进一步提升了评测的可靠性和效率