Summary
提出 CogAgent,一个 18B 参数的 VLM,通过 dual-resolution encoder(低分辨率 224x224 + 高分辨率 1120x1120)实现高效 GUI 理解,在 9 个 VQA benchmark 和 GUI navigation 任务上取得 SOTA,是首个纯视觉方案超越基于 HTML 文本的 LLM 方法的工作。
Problem & Motivation
GUI 交互是人机交互的核心场景,但现有 LLM 依赖 HTML/accessibility tree 等文本表示,存在三个根本局限:(1) 很多 GUI 没有标准 API(如 canvas、iframe);(2) 图标、空间布局等视觉信息难以用文本传达;(3) HTML 解析不完整。VLM 是更自然的方案,但高分辨率输入带来巨大计算开销——1120x1120 图像在 patch size 14x14 下产生 6400 tokens,远超 224x224 的 256 tokens。
Method
架构基础:基于 CogVLM-17B,包含 EVA2-CLIP-E(低分辨率 224x224 encoder)+ Vicuna-1.5-7B decoder + visual expert modules。
核心创新——High-Resolution Cross-Module:
- 用更小的 EVA2-CLIP-L(0.30B)处理 1120x1120 高分辨率图像
- 在每个 decoder layer 通过 cross-attention 融合高低分辨率特征
- 计算量不到直接处理高分辨率输入的一半,实现 >25x 计算量缩减
Pre-training(60K iterations, batch 4608):
- Text Recognition(107M 图像):80M 合成渲染 + 18M OCR + 9M arXiv 文档
- Visual Grounding(40M 图像):LAION-115M 图文对 + bounding box
- GUI Imagery(CCS400K):从 Common Crawl 采集 40 万截图,生成 1.4 亿 QA 对
训练分阶段:前 20K steps 仅训练 cross-module(3.5% 参数可训练),后 40K steps 解冻 visual expert。
Fine-tuning(10K iterations, batch 1024):2000+ 手动标注截图 + Mind2Web + AITW + 多个 VQA 数据集,全参数解冻。
Key Results
VQA benchmarks:在 TextVQA(76.1, +4.7)、ST-VQA(80.5)、DocVQA(81.6, +1.6)等 text-rich benchmark 上达到 SOTA。
Mind2Web(Web GUI):
- Overall element accuracy 58.2%,超越 LLaMA2-70B(54.4%,4x 大)和 GPT-4(30.9%)
- 首次实现纯视觉方案超越基于 HTML 的 LLM 方法
AITW(Android GUI):Overall accuracy 76.88%,超越 Auto-UI(74.27%)。约 40% 的 “错误” 实际是合理的替代交互路径。
Ablation 亮点:
- 高分辨率 cross-module 在 1120x1120 下 FLOPs 不到原始 490x490 架构的 50%
- GUI/grounding 预训练数据为 Mind2Web 带来 +12.8 绝对提升
Strengths & Weaknesses
Strengths:
- Dual-resolution cross-attention 是优雅的工程方案,在分辨率和计算量之间取得好的 trade-off
- 预训练数据设计系统化,三阶段 curriculum 覆盖 OCR → grounding → GUI
- 首次证明纯视觉 GUI agent 可以超越依赖 HTML 的方法,这是重要的 paradigm shift
Weaknesses:
- 18B 模型仍然较大,部署成本高
- 坐标输出精度不足,这对 GUI 交互是关键瓶颈
- 不支持多图输入,限制了 multi-step navigation 场景
- CCS400K 数据集仅覆盖 web,缺少 mobile/desktop 数据多样性
影响:作为 GUI agent 领域的 pioneer work,验证了 VLM + 高分辨率输入这一技术路线的可行性,直接启发了后续的 SeeClick、OS-Atlas、ShowUI 等工作。
Mind Map
mindmap root((CogAgent)) Problem GUI 缺少标准 API 视觉信息难以文本化 高分辨率计算开销大 Method Dual-resolution encoder 低分辨率 EVA2-CLIP-E 224x224 高分辨率 EVA2-CLIP-L 1120x1120 Cross-attention 融合 三阶段预训练 Text Recognition 107M Visual Grounding 40M GUI Imagery CCS400K Results 5/6 text-rich VQA SOTA Mind2Web 58.2% 超越 LLM 方法 AITW 76.88% 计算量减半
Notes
- Cross-module 的设计思路(小 encoder 处理高分辨率 + cross-attention 融合)在后续工作中被广泛借鉴
- 40% “错误”实为合理替代路径,暴露了 GUI benchmark 评估的固有难题
- 与 SeeClick 对比:CogAgent 是大模型路线(18B),SeeClick 走轻量化路线