Summary
利用互联网上大量多模态教程(视频+图文)自动构建跨 OS、跨应用的 GUI agent trajectory 数据集 GUI-Net(143K trajectories),微调 Qwen2.5-VL 后在 grounding 和 navigation benchmark 上超越同规模 baseline 约 10%。
Problem & Motivation
构建通用 GUI agent 的核心瓶颈是高质量 trajectory 数据的稀缺——人工标注成本高且难以覆盖多 OS、多应用场景。已有数据合成方法(如 AgentTrek、OS-Genesis)依赖特定环境或逆向工程,难以达到 internet-scale。互联网上存在海量 how-to 教程(YouTube、WikiHow 等),天然包含 step-by-step GUI 操作指导,但从未被系统性地利用为 agent 训练数据。
Method
四阶段 pipeline:
- Tutorial Crawling:用 LLM 从 seed task 扩展出多样化 query(“app + task” 格式),从 YouTube、Bilibili、TikTok、WikiHow、百度经验等平台检索教程
- Tutorial Processing:
- 文本处理:Whisper ASR 转录视频音频 → LLM 清洗、分类设备类型(mobile/desktop)、提取 task query 和 step description
- 视觉处理:图文教程直接取截图;视频用 MOG2 background subtraction 检测 GUI 状态变化,提取关键帧
- Trajectory Generation:用 zero-shot pretrained agent(UI-TARS)为每个 step 生成 thought 和 action,失败步骤丢弃并切分 trajectory
- Agent Tuning:在 Qwen2.5-VL-3B/7B 上做 LoRA SFT(rank=16, alpha=32),context window 8192 tokens,最多保留 2 个历史 observation
关键设计选择:依赖已有强 agent(UI-TARS)做 trajectory annotation 而非自己训练标注器,本质是一种知识蒸馏。
Key Results
- ScreenSpot (grounding):TongUI-7B 83.4%,超越 ShowUI-2B (75.1%),但低于 UI-TARS-7B (89.5%,40× 训练数据)
- AITW (offline navigation):TongUI-7B 73.3%,ShowUI-2B 70.0%
- Mind2Web:TongUI-7B element accuracy 48.0-50.0%,step SR 42.6-46.0%
- MiniWob (online):TongUI-7B 71.9,与 ShowUI-2B (71.5) 差距极小
- Data scaling ablation:无 SFT → 8.0%;+ refined public data → 68.0%;+ WikiHow → 75.8%;+ 百度 → 78.7%;+ Video → 79.6%
- 数据质量人工评估:GUI-Net 4.12/5.0 vs ShowUI 4.26/5.0(质量可比)
Strengths & Weaknesses
Strengths:
- 数据来源思路新颖且 scalable:互联网教程是几乎无限的免费数据源,理论上可以持续扩展
- 跨 5 个 OS + 200+ 应用的覆盖面远超已有数据集,泛化性有保障
- Pipeline 各组件均用现成工具(Whisper, UI-TARS, MOG2),工程可复现性强
- 开源代码、数据、模型
Weaknesses:
- 核心依赖 UI-TARS 做 trajectory annotation——性能天花板受限于 teacher agent 能力,本质是蒸馏而非真正的新能力获取
- MiniWob 上 TongUI-7B (71.9) vs ShowUI-2B (71.5) 提升微乎其微,说明数据量增加未必转化为 online 场景的能力提升
- MOG2 background subtraction 作为关键帧提取方法过于简单,对动画丰富的现代 UI 可能失效
- 缺乏 continual learning 能力——每次更新需要全量重新收集和训练
- 未在 OSWorld 等更具挑战性的长 horizon benchmark 上评估
Mind Map
mindmap root((TongUI)) Problem GUI trajectory 数据稀缺 人工标注成本高 跨 OS 跨应用覆盖不足 Method Tutorial Crawling 多平台检索 LLM query 扩展 Tutorial Processing Whisper ASR MOG2 关键帧提取 Trajectory Generation UI-TARS zero-shot annotation LoRA SFT on Qwen2.5-VL Results ScreenSpot 83.4% AITW 73.3% GUI-Net 143K trajectories 5 OS, 200+ apps
Notes
- 与 AgentTrek 思路互补:AgentTrek 在真实环境中合成 trajectory($0.55/traj),TongUI 从教程中提取。两者可结合使用
- 性能天花板问题值得关注:如果 teacher agent (UI-TARS) 本身在某些场景下失败,那么从教程中提取的 trajectory 质量也会受限。未来可能需要 RL self-improvement 来突破蒸馏上限
- GUI-Net 数据集本身可能比模型更有价值——可用于训练其他架构的 agent
- 视频教程处理 pipeline 可能对 embodied AI 的 demonstration 数据构建有启发