Summary

构建了一个包含四个真实自托管网站的 web agent 评估环境,提供 812 个多样化任务,采用 functional correctness 评估而非轨迹匹配,揭示了 GPT-4 仅 14.41% 成功率 vs 人类 78.24% 的巨大差距。

Problem & Motivation

现有 web agent 评估环境存在三个关键问题:(1) 过度简化真实场景,任务多样性和复杂度不足;(2) 使用静态缓存页面或合成环境,无法反映动态交互;(3) 评估基于 action sequence 表面匹配而非功能正确性,无法捕捉等价的替代解法。这导致评估结果与真实部署能力脱节。

Method

环境设计: 四个完整功能的自托管 Web 应用,运行在 Docker 容器中:

  • OneStopShop(电商):基于 Adobe Magento,~90k 商品
  • Reddit Clone(论坛):基于 Postmill,127,390 帖子 / 95 subreddits
  • GitLab(代码协作):300 仓库
  • CMS(内容管理):Magento admin portal
  • 工具类:OpenStreetMap(美国东北部)、计算器、scratchpad
  • 知识源:离线 Wikipedia、文档

任务设计: 812 个任务(241 模板),分三类:

  • Information-seeking:需跨页面导航获取文本信息
  • Site navigation:定位特定信息
  • Content & configuration:创建/修改 web 内容

评估方式: 以 functional correctness 为核心——检查中间状态和数据库变化,而非比对 action 序列。信息类任务支持 exact_match / must_include / fuzzy_match 三种方式。

Key Results

ModelSuccess Rate
GPT-4 (CoT)11.70%
GPT-4 (无 UA hint)14.41%
GPT-3.5 (CoT)8.75%
text-bison-0015.05%
Human78.24%
  • GPT-4 在 information-seeking 任务上仅 11.4%
  • 当需判断任务是否可行时,GPT-4 将 54.9% 的可行任务错误标为不可行
  • 在 61 个模板族中仅 4 个达到 100% 完成率,strategy transfer 极弱

Strengths & Weaknesses

Strengths:

  • 首个同时满足 realistic + reproducible + dynamic 三要素的 web agent 环境
  • Functional correctness 评估是正确方向,允许多种解法路径
  • 自托管设计保证可复现性和状态可控
  • 任务设计贴近真实日常操作,涵盖电商/论坛/代码/CMS

Weaknesses:

  • 地图仅覆盖美国东北部,受存储限制
  • 环境重置耗时 30s-1min/网站,批量实验效率受限
  • 测试的 agent 架构有限(仅 3 个 LLM baseline),对 agent 设计空间探索不足
  • 人类标注者都有 CS 背景,可能高估人类 baseline
  • 任务数量(812)相对有限,可能不足以评估 agent 泛化能力的细粒度差异

Mind Map

mindmap
  root((WebArena))
    Problem
      现有环境过度简化
      静态缓存无法反映动态交互
      评估依赖轨迹匹配而非功能正确性
    Method
      4 个自托管真实网站
      812 tasks / 241 templates
      Functional correctness 评估
    Results
      GPT-4 14.41% vs Human 78.24%
      Strategy transfer 极弱
      Agent 不知何时停止

Notes

  • Web agent benchmark 的标杆工作,后续 VisualWebArena、OSWorld、WindowsAgentArena 均以此为基础
  • Functional correctness evaluation 的设计思路值得所有 agent benchmark 借鉴
  • 关键发现:“模型不知道何时停止”——这反映了 agent 缺乏 self-monitoring 和 metacognition 能力,是一个值得深入研究的方向
  • 人机差距(~64%)至今(2026 年)仍未完全弥合,说明 web agent 仍有很大提升空间