Summary
提出 ShowUI,一个轻量级 2B VLA 模型用于 GUI agent,核心创新是 UI-guided visual token selection(将截图建模为 UI connected graph 来识别冗余 patch),配合 interleaved vision-language-action streaming 和精心筛选的训练数据,仅用 256K 样本实现 75.1% zero-shot screenshot grounding,同时减少 33% visual tokens 并加速 1.4x。
Problem & Motivation
GUI visual agent 面临三个核心挑战:(1) 高分辨率截图产生大量 visual tokens,self-attention 计算开销高;(2) 多步导航中需要管理交错的视觉-动作历史;(3) 跨平台训练数据质量参差不齐、分布不均衡。现有方法要么用大模型暴力处理(如 CogAgent 18B),要么依赖大规模数据(如 OS-Atlas 13M elements),ShowUI 探索”小模型 + 少数据 + 巧设计”的路线。
Method
UI-Guided Visual Token Selection:
- 将截图分成 patches,基于 RGB 相似度构建 UI connected graph,识别连通分量
- 在每个连通分量内随机采样 tokens(而非 merge),保留原始 position embeddings
- 关键设计选择:token merging 会破坏位置信息(accuracy 从 70.8% 降至 42.3%),而 selection 保持 70.4%
- 减少 ~33% visual tokens(1344→947),训练加速 1.4x-1.5x
- Cross-layer insertion(交替层插入)优于 early/late-layer 策略
Interleaved Vision-Language-Action Streaming:
- Action 标准化为 JSON 格式:
{'action': type, 'value': element, 'position': [x,y]} - Action-Visual Streaming:多步导航中交错历史截图和 action
- Action-Query Streaming:单步 grounding 中每张截图多个标注,解决 visual token(1-2K)与 query(<10 tokens)的长度不匹配
GUI Instructional Tuning(数据精选):
- Web(22K screenshots, 576K elements):过滤 40% 静态文本(VLM 已有 OCR 能力)
- Mobile(97K screenshots, 926K elements):AMEX 数据集,强调功能描述
- Desktop(100 screenshots, 8K elements):OmniAct + GPT-4o 生成外观/空间/意图三类描述
- Balanced sampling 解决跨平台数据不均衡(比 unbalanced +3.7%)
Key Results
Grounding(ScreenSpot):
- 75.1% 平均准确率(2B 模型 + 256K 数据)
- 超越 SeeClick 9.6B(53.4%),接近 UGround 7B + 1.3M 数据(73.3%)
- Text grounding 显著强于 icon grounding(Mobile: 92.3% vs 75.5%)
Navigation:
- AITW(Mobile):70.0%,比 Qwen2-VL-2B baseline +2.8%
- Mind2Web(Web):39.9% element accuracy,88.6% operation F1
- MiniWob(Online):fine-tuned 71.5%,zero-shot 27.1%
Ablation 亮点:
- Token merging 严重损害性能(42.3%),说明 GUI grounding 对位置信息极度敏感
- Selection ratio 0.5 最优,更高比例反而降低性能
- 视觉历史对 mobile(软件变化频繁)有帮助(+1.7%),对 web(页面相对静态)帮助有限
- Balanced sampling 贡献 +3.7%
Strengths & Weaknesses
Strengths:
- 极高的参数效率和数据效率:2B 模型 + 256K 数据达到接近 7B + 1.3M 数据的水平
- UI connected graph token selection 是有 insight 的设计——利用 GUI 的结构化特性(大面积同色区域)来减少冗余
- Token selection vs merging 的 ablation 揭示了重要发现:GUI grounding 对位置编码极度依赖
- Balanced sampling 的简单策略带来显著提升,实用性强
Weaknesses:
- Desktop 数据极少(仅 100 张截图),desktop 性能相应较弱
- Online 环境 zero-shot 仅 27.1%,offline-to-online gap 明显
- 2B 模型在复杂推理任务上可能受限(语言能力天花板)
- RGB 相似度建图假设了 GUI 元素颜色均匀,对复杂视觉元素(图片按钮、渐变背景)可能失效
影响:证明了 GUI agent 不一定需要大模型大数据,精巧的 token 管理和数据策略可以弥补模型规模的劣势。与 OS-Atlas 形成有趣对比。
Mind Map
mindmap root((ShowUI)) Problem 高分辨率截图 token 开销大 视觉-动作历史管理 跨平台数据不均衡 Method UI-Guided Token Selection UI connected graph Selection over Merging 减少 33% tokens Interleaved Streaming Action-Visual 多步导航 Action-Query 单步 grounding 精选训练数据 Web 22K + Mobile 97K + Desktop 100 Balanced sampling Results 75.1% zero-shot grounding 2B 模型接近 7B 水平 1.4x 训练加速
Notes
- Token selection vs merging 的对比是本文最有价值的发现之一:位置信息对 GUI grounding 至关重要,这与 NLP 中 token 可以自由 merge 的假设不同
- 仅 100 张 desktop 截图就能产生可用的性能,说明 GPT-4o 生成的多样化 query 类型(外观/空间/意图)补偿了数据量的不足
- 与 CogAgent 和 OS-Atlas 的定位差异:CogAgent = 架构创新 + 大模型,OS-Atlas = 数据工程 + 跨平台,ShowUI = 效率优化 + 小模型
- Online RL 是作者提出的重要 future direction——offline instruction tuning 和 online deployment 之间的 gap 是 GUI agent 领域的共性问题