Summary
系统综述 LLM-brained GUI agent 领域,覆盖 500+ 篇文献,从历史演进、核心组件(感知/推理/行动/记忆)、跨平台框架、数据集、Large Action Model、评估方法到应用和挑战进行全面梳理,为构建 GUI agent 提供了结构化的知识地图。
Problem & Motivation
GUI 自动化从脚本时代(Selenium、AutoIt)发展到 LLM 驱动的智能 agent 时代,但领域缺乏系统性综述。现有 survey 覆盖面不足,未能统一整合 LLM 进展、GUI 自动化和 HCI 三个视角。本文旨在提供一个全面、实用的参考框架,既是理论综述也是构建 GUI agent 的”cookbook”。
Method
组织框架:围绕 8 个研究问题(RQ1-RQ8)展开,覆盖 12 个章节。
核心组件分析:
- Perception(感知):截图 + widget tree + OCR + 多模态模型,理解 GUI 状态
- Reasoning & Planning(推理与规划):Chain-of-Thought 分解、sub-goal 规划、长程推理
- Action(执行):UI 操作(click/type/gesture)、Native API 调用、AI 工具集成
- Memory(记忆):Short-term memory(当前交互上下文)和 Long-term memory(历史交互模式、学习到的流程)
平台分类:
- Web GUI Agent(浏览器自动化)
- Mobile GUI Agent(Android/iOS)
- Computer GUI Agent(桌面/OS 级自动化)
- Cross-Platform Agent(跨平台统一操作)
高级技术:GUI grounding、多 agent 框架、self-reflection、self-evolution、RL 集成
Large Action Model (LAM):专门为 GUI 任务执行微调的模型,超越通用 LLM 的新方向。
Key Results
- 覆盖 500+ 篇文献,是目前该领域最全面的综述
- 识别出从 rule-based → script-based → ML-based → LLM-brained 的演进路径
- 主要 benchmark:WebArena、Mind2Web(Web);AITW、AITZ(Mobile);OSWorld、WindowsAgentArena(Desktop)
- 关键发现:planning failure 是当前 agent 最主要的失败模式;privacy、latency、safety 是部署的核心障碍
- LAM 是新兴趋势,通过 domain-specific fine-tuning 提升 GUI 任务执行能力
Strengths & Weaknesses
Strengths:
- 覆盖面极广(500+ papers),是快速了解 GUI agent 全景的最佳入口
- 8 个 RQ 的组织结构清晰,便于按需查阅
- 既有技术深度也有实践导向(“cookbook” 定位),对新人和研究者都有价值
- 持续更新的 GitHub repo 和可搜索网页增加了长期价值
- 跨平台视角的统一分析(Web/Mobile/Desktop/Cross-platform)
Weaknesses:
- 综述性质决定了缺乏原创技术贡献
- 对各方法的 critical analysis 偏浅——列举多于评判,未充分指出哪些方向真正 promising vs. 可能是死胡同
- 对 grounding 和 planning 两个核心瓶颈的深度分析不够,而这恰是领域最需要突破的
- LAM 部分讨论相对浅,未深入分析 fine-tuning vs. prompting 的 trade-off
- 部分分类(如 action 类型的三分法)略显粗糙,未能捕捉 action space 设计的细微差异
Mind Map
mindmap root((GUI Agent Survey)) Problem 领域缺乏系统综述 LLM + GUI + HCI 整合 Method 8 个研究问题框架 核心组件分析 Perception Reasoning Action Memory 平台分类 Web / Mobile / Desktop 高级技术 Grounding / Multi-agent / RL Results 500+ 文献覆盖 演进路径梳理 关键瓶颈识别 Planning failure Privacy / Latency
Notes
- 作为 reference survey 非常有用,可以通过它快速定位某个子方向的代表性工作
- Survey 中 LAM 的概念值得关注——从 LLM 到 LAM 的演进是否意味着 GUI agent 需要 domain-specific 预训练?
- 与 SeeClick 和 Agent S2 结合看:survey 指出 grounding 和 planning 是两大瓶颈,SeeClick 攻 grounding,Agent S2 同时攻 grounding+planning
- 缺少对 computer-use agent 中 safety/reversibility 的深入讨论,这在实际部署中极其重要