Summary
提出 AgentTrek,一个可扩展的 web agent trajectory 自动合成 pipeline,利用公开 web tutorials 指导 VLM agent 在真实环境中执行任务并收集 trajectories,成本仅 $0.55/条,在 Mind2Web 和 WebArena 上显著提升 agent 性能。
Problem & Motivation
训练高质量 web agent 需要大量带标注的 trajectories 数据,但人工标注成本极高且难以 scale。现有方法要么依赖昂贵的人工标注,要么用 LLM 自由探索(质量低、成功率低)。核心 insight:互联网上已有大量高质量的操作教程(web tutorials),这些教程本质上是人类经验的文本化,可以作为 guided signal 来指导 agent 生成高质量 trajectories。
Method
三阶段 Pipeline:
Stage 1: Tutorial Harvesting(教程采集)
- 从互联网爬取大量 web tutorials
- 使用启发式规则 + FastText 模型过滤低质量内容
- LLM 将原始文本结构化为 step-by-step 指令
- 从 23,430 个 tutorials 中过滤得到可用教程
Stage 2: Guided Replay(指导式回放)
- VLM agent 在真实 web 环境中执行 tutorial 描述的任务
- Tutorial 作为 high-level guidance,agent 需要将文本指令映射到实际 UI 操作
- 采集完整的多模态数据:screenshots、HTML、AXTree、action sequences、reasoning
- 独立 VLM evaluator 验证 trajectory 质量(成功/失败判定)
- 核心创新:tutorial 提供了中间粒度的指导——比 free exploration 更有方向,比精确脚本更灵活
Stage 3: Training
- 成功 trajectories 用于 fine-tune GUI agent 模型
- 支持 text-based 和 vision-based 两种 trajectory 格式
- 训练 AgentTrek-1.0-32B 模型
关键设计选择:
- Tutorial 作为 guidance 而非 ground truth——允许 agent 在实际环境中适应性执行
- 多模态数据采集确保训练数据的丰富性
- 质量过滤确保只保留成功 trajectories
Key Results
- 从 23,430 个 tutorials 生成 10,398 条成功 trajectories(约 44% 成功率)
- 覆盖 127 个网站,多领域多任务类型
- 成本:$0.55/条 trajectory(无需人工标注者)
- Agent 在有 tutorial guidance 时性能提升 230%
- 训练后模型在 Mind2Web 和 WebArena 等标准 benchmark 上显著优于 baseline
- 数据和模型已开源(HuggingFace)
Strengths & Weaknesses
Strengths:
- Insight 精准: 利用已有 web tutorials 作为 guided signal——这是一个被忽略的高质量数据源,思路巧妙且 scalable
- 成本效率极高: 5-50/条,降低了 1-2 个数量级
- 数据质量有保障: tutorial guidance + VLM evaluator 双重过滤,44% 成功率合理
- 实际执行而非模拟: 在真实 web 环境中采集,数据更贴近 deployment 场景
- 方法 generalizable: pipeline 原则上可扩展到 desktop、mobile 等其他 GUI 环境
Weaknesses:
- Tutorial 覆盖有偏差: 教程通常覆盖常见、简单任务,长尾复杂任务缺乏教程覆盖
- 44% 成功率意味着 56% 浪费: 失败 trajectories 的 compute 成本被丢弃,是否可从失败中学习?
- Tutorial 质量参差不齐: 互联网教程可能过时(UI 已更新)、不完整、或有错误
- Web 环境不稳定: 网站 UI 变化、网络延迟、动态内容等增加了 replay 难度
- 评估不够全面: 主要在 web browsing benchmarks 上评估,缺少 desktop/mobile 的泛化验证
- 与后续 OpenCUA 的关系: OpenCUA 用人工标注取得更好效果——说明 tutorial-guided 合成数据的质量上限可能仍低于人工标注
Mind Map
mindmap root((AgentTrek)) Problem Agent trajectory 标注成本高 LLM 自由探索质量低 需要 scalable 数据合成方案 Method Tutorial Harvesting 教程采集 Guided Replay 指导式回放 VLM Evaluator 质量过滤 $0.55/trajectory Results 10,398 成功 trajectories 127 网站覆盖 230% 性能提升 Mind2Web WebArena 提升
Notes
- 与 OpenCUA (2508.09123) 来自同一团队 XLANG Lab,AgentTrek 是前序工作——对比两者可看出:tutorial-guided 合成 ($0.55/条) vs 人工标注 (成本更高但质量更高) 的 trade-off
- “Tutorial as guidance” 的思路可推广:instruction manuals → robot manipulation, cooking recipes → kitchen robot, driving tutorials → autonomous driving
- 失败 trajectories 的利用是未来方向——DPO/RLHF 可用 (success, failure) pairs 训练
- 44% 成功率暗示当前 VLM 的 instruction following + GUI grounding 能力仍有很大提升空间
- 与 WebVoyager、SeeAct 等工作形成完整的 web agent 数据生态