Summary

提出首个针对 Windows 操作系统的多模态 agent 评估 benchmark,包含 150+ 任务覆盖 11 个应用,利用 Azure 云部署实现大规模并行评估(~20 分钟完成全部评估),其 Navi agent 达到 19.5% 成功率 vs 人类 74.5%。

Problem & Motivation

现有 agent benchmark 局限于特定模态或领域(web、mobile、Q&A),缺乏在完整操作系统环境下的综合评估。Windows 占桌面 OS 73% 市场份额却没有对应的评估框架。更关键的是,串行评估极其耗时(数天量级),阻碍了快速迭代。

Method

环境设计:

  • 真实 Windows 11 OS 运行于 Docker 容器(QEMU/KVM)
  • 154 个任务,覆盖 11 个应用(LibreOffice, Chrome, Edge, VSCode, VLC, Windows Settings, File Explorer 等)
  • 6 个 domain:Office (28%), Web (19%), System (16%), Coding (16%), Media (14%), Utilities (8%)

Navi Agent 架构:

  • 多模态输入:Screenshot + Accessibility Tree + Set-of-Marks (SoM)
  • SoM 方法:UI Automation (UIA) tree parsing, OCR, icon detection, OmniParser
  • Chain-of-thought prompting
  • Action space:通过 Python 代码调用鼠标/键盘

云端并行评估:

  • Docker 容器部署在 Azure ML compute instances
  • Python Flask server 桥接 agent 命令与 VM
  • Windows 11 快照存储在 Azure Blob Storage
  • 分布式任务调度,全量评估 ~20 分钟(vs 串行数小时)

评估方式: 执行后状态验证脚本,检查文件修改/系统设置/应用状态。

Key Results

ConfigurationSuccess Rate
Navi (UIA + OmniParser + GPT-4V-1106)19.5%
Navi (GPT-4o)~9% (约为 GPT-4V 一半)
Human74.5%
  • GPT-4V-1106 显著优于 GPT-4o(超过两倍成功率),这是一个反直觉的发现
  • Cross-benchmark:Navi 在 Mind2Web 上达到 47.3% step success(SOTA)
  • Domain 差异大:Web 任务人类 76.7% vs VLC 任务人类 42.8%

Strengths & Weaknesses

Strengths:

  • 首个 Windows 平台综合 agent benchmark,填补重要空白
  • Azure 云端并行评估架构具备实际工程价值,解决了评估效率瓶颈
  • 任务覆盖多样,贴近真实用户工作流
  • 开源完整代码/任务/模型
  • 执行后状态验证(非轨迹匹配)

Weaknesses:

  • 任务数量(154)相对较少,可能不足以细粒度评估
  • 仅一位人类评估者参与,baseline 代表性存疑
  • 未探索 fine-tuning,仅评估 zero-shot generalist
  • Visual grounding 问题突出——agent 能正确描述操作但选错 UI 元素,说明视觉-语言对齐是瓶颈
  • SoM 标注质量对性能影响极大(15-57% 差异),benchmark 结果可能更多反映 SoM 质量而非 agent 能力

Mind Map

mindmap
  root((WindowsAgentArena))
    Problem
      缺乏 Windows OS agent benchmark
      串行评估耗时过长
    Method
      Windows 11 Docker 容器
      Navi agent: Screenshot + A11y Tree + SoM
      Azure 云端并行评估
    Results
      Navi 19.5% vs Human 74.5%
      GPT-4V > GPT-4o
      Visual grounding 是核心瓶颈

Notes

  • 与 OSWorld(2404)互补:OSWorld 覆盖 Ubuntu,本工作覆盖 Windows,两者设计哲学类似
  • GPT-4V-1106 > GPT-4o 这个发现值得深思——可能 GPT-4o 的视觉编码在密集 UI 场景下有退化
  • Visual-language misalignment(正确描述但选错元素)是 GUI agent 的核心未解决问题,不仅仅是 benchmark 问题
  • 并行评估框架的工程设计值得借鉴,但对大多数研究者来说 Azure 依赖可能是门槛
  • SoM 质量影响 15-57% 这个数据说明,当前 GUI agent 性能很大程度取决于 perception pipeline 而非 reasoning