Summary

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • 核心: 把开源 VLM 训成一个跨平台 GUI 基础动作模型,主要靠堆 grounding 数据和统一 action space。
  • 方法: 自建多平台(Win/macOS/Linux/Android/Web)grounding 数据合成工具,得到 13M 元素 / 2.3M 截图的 corpus,先 grounding pre-train(OS-Atlas-Base)再 multitask 动作 fine-tune;在 fine-tune 阶段用 unified action space(Basic + Custom)解决 click vs tap 这种命名冲突。
  • 结果: ScreenSpot 上 7B 版本平均 82.47(standard)/ 85.14(GPT-4o planner),显著超 SeeClick / Qwen2-VL-7B / 同期 UGround-7B;OSWorld(grounding mode)从 SeeClick 9.21 提到 14.63;多个 mobile/web/desktop agent benchmark 上零样本 OOD 超 GPT-4o。
  • Sources: paper | website | github
  • Rating: 3 - Foundation(ICLR 2025 Spotlight;OS-Atlas-Base 与 ScreenSpot-V2 已成为 GUI grounding 方向的 de facto baseline 与数据源;cc=272 / ic=73(26.8% 高继承率)验证方法被深度复用)

Key Takeaways:

  1. GUI grounding 是数据问题:开源 VLM 在 GUI 上落后于 GPT-4o 主要因为没在 GUI 截图上充分预训练;scale 13M element grounding corpus 之后,7B 模型 ScreenSpot 拿到 82+。
  2. Cross-platform corpus 的工程价值:作者把 Web 用 FineWeb URL + 整页 1920×1080 切片爬,desktop/mobile 用 AndroidEnv / OSWorld + 物理机 + A11y tree(pyatspi/pywinauto/ApplicationServices)DFS/Random Walk 自动遍历——这套 infra 比方法本身更稀缺。
  3. Unified action space 是 OOD 的关键:fine-tune 时把 17 个动作类型压到 10 个(合并 tap/click、home/press_home、type/input 等),ablation 显示去掉 unified action 在所有平台都掉点。
  4. Web-only pre-training 不够 transfer:“不同 GUI 都遵循类似设计原则”这个直觉只对了一半——只用 web 数据预训 mobile/desktop grounding 仍掉点,desktop 数据有独立价值。
  5. 三种使用模式:Grounding mode(替换 GPT-4o agent 里的坐标预测模块)、Action mode(端到端零样本预测下一步动作)、Agent mode(在下游任务上 SFT);Grounding mode 配 GPT-4o 在 OSWorld 上表现最好。

Teaser. OS-Atlas 三种模式与整体性能对比。 左图展示 Grounding / Action / Agent 三种使用模式,右图是雷达图对比 OS-Atlas 与 GPT-4o、SeeClick、CogAgent 等在六个 benchmark 上的相对性能。


1. Motivation

作者把 open-source VLM-based GUI agent 落后于 GPT-4o 的原因归结为两点:

  1. 缺 GUI 截图预训练数据:现有 corpus 偏 web 和 mobile,desktop 几乎空白;且大多不开源或规模小。
  2. Action 命名冲突:mobile 的 tap 和 desktop 的 click 逻辑等价但命名不同;这种异构性在多源数据 multitask 训练时拖累泛化。

❓ 第一点很容易被 trivial 化为 “数据不够”;但作者实际证据是 “scaling data 持续涨点”(Figure 3)+ “web-only 不能 transfer”(Figure 4)。这两条加起来才把”缺数据”具体化为”缺 cross-platform 数据”。

2. Method

2.1 训练流程

两阶段:

  1. GUI Grounding Pre-training:输入 <screenshot, referring expression / instruction, coordinate> 三元组,输出 element 坐标(point 或 bbox,归一化到 0-1000)。得到 OS-Atlas-Base
  2. Action Fine-tuning:输入 <screenshot, task instruction, action history>,输出 <thoughts, action type, action parameters>。得到 OS-Atlas

Backbone 用两套:InternVL-2-4B(AnyRes 切 patch)和 Qwen2-VL-7B(任意分辨率→动态 visual token 数)。

Figure 2. Overall training pipeline.

2.2 Grounding 数据收集

Table 1. 数据规模对比。

DatasetWebMobileDesktopOpen SourceElements
SeeClick270K94K-3.3M
Ferret-UI-124K-<1M
GUICourse73K9K-10.7M
CogAgent400K--70M
OS-Atlas1.9M285K54K13.58M

Web:从 FineWeb(CommonCrawl 衍生)取 URL,爬 4M 页;不同于 SeeClick 只取上半屏,OS-Atlas 渲染整页再切 1920×1080,提升多样性。从 HTML 提取可点击元素(buttons / scrollbars / search bars / hyperlinks / 带 title 的 SVG)+ 坐标。规则过滤后剩 1.6M 截图 / 7.7M 元素,单页元素上限 10。

Desktop & Mobile

平台环境A11y API
AndroidAndroidEnv-
LinuxOSWorldpyatspi
Windows物理机pywinauto
macOS物理机ApplicationServices

模拟人机交互用 DFS + Random Walk 两种 exploration 策略遍历状态空间。

Instruction Grounding (IG) 数据:用 GPT-4o 标注现有轨迹数据集(Mind2Web / AMEX / AITZ),结合 Set-of-Mark prompting 让 GPT-4o 看清被操作元素。再加 AndroidControl + Wave-UI 的现成 IG 数据。

2.3 Unified Action Space

Basic actions(跨平台标准化):clicktypescroll

Custom actions(用户/平台特定):例如 open_appdrag。Custom action 是支持 OOD 的关键——允许用户在推理时声明新动作。

量化收益:动作类型从 17 → 10,消除 tap/clickpress_home/hometype/input 等冲突。

3. Experiments

3.1 Grounding(ScreenSpot)

Table 2. ScreenSpot grounding accuracy. 关键行:

PlannerModelMobile-TextMobile-IconDesktop-TextDesktop-IconWeb-TextWeb-IconAvg
-SeeClick78.052.072.230.055.732.553.4
-Qwen2-VL-7B61.339.352.045.033.021.842.9
-UGround-7B82.860.382.563.680.470.473.3
-OS-Atlas-Base-4B85.758.572.245.782.663.170.1
-OS-Atlas-Base-7B93.072.991.862.990.974.382.5
GPT-4oOS-Atlas-Base-7B93.879.990.266.492.679.185.1

OS-Atlas-Base-7B 在不带 planner 的 standard setting 下就超过了带 GPT-4o planner 的 UGround-7B(82.5 vs 81.4)。

ScreenSpot 还被作者重新审计——发现约 11.32% annotation 错误,重发为 ScreenSpot-V2

Figure 3. Data scaling 效果。 Grounding accuracy 和 IoU 都随数据量持续涨;IoU 在 web 域(~10M elements)涨势最明显,accuracy 涨势相对弱(因为 acc 不能捕获细粒度误差)。

❓ “accuracy 还能往上推” 与 “需要更难 benchmark” 是同一个事实的两面——84% 的 ScreenSpot 离饱和不远,下一步评估应该看 IoU 或 ScreenSpot-Pro 类难数据。

Figure 4. Pre-training 数据消融。 去掉 IG、再去掉 mobile/desktop(只剩 web)。结论:(1) REG 数据已足够强;(2) Web-only 不能泛化到 desktop/mobile,desktop+mobile 数据不可或缺。

3.2 Grounding Mode 应用:OSWorld

把 GPT-4o agent 里的坐标预测换成 OS-Atlas-Base:

Table 3. OSWorld success rate (%).

ModelAvg
GPT-4o + SoM4.59
GPT-4o (vanilla)5.03
GPT-4o + SeeClick9.21
GPT-4o + OS-Atlas-Base-4B11.65
GPT-4o + OS-Atlas-Base-7B14.63
Human72.36

14.63 vs Human 72.36 的差距说明 grounding 不是 OSWorld 的全部瓶颈——planner / long-horizon / error recovery 都有问题。OS-Atlas 的贡献限定在 grounding 这一环。

3.3 Agent Tasks(Action / Agent Mode)

Action fine-tuning 只用 AMEX (mobile) + AITZ (mobile) + Mind2Web (web) 三个数据集,留 5 个 benchmark 做 OOD 测试:AndroidControl、GUI-Odyssey(mobile);GUI-Act-Web、OmniAct-Web(web);OmniAct-Desktop(desktop,纯 OOD,训练完全没见过 desktop agent 数据)。

Table 4. Web & Desktop(关键 SR 列):

ModelGUI-Act-Web SROmniAct-Web SROmniAct-Desktop SR
Zero-shot
GPT-4o41.8434.0650.67
OS-Atlas-7B57.0259.1556.73
SFT
Qwen2-VL-7B82.2778.5891.77
OS-Atlas-7B82.7093.5694.05

Table 5. Mobile(关键 SR 列):

ModelAndroidControl-Low SRAndroidControl-High SRGUI-Odyssey SR
Zero-shot
GPT-4o28.3921.175.36
OS-Atlas-7B50.9429.8326.96
SFT
Qwen2-VL-7B82.5669.7260.23
OS-Atlas-7B85.2271.1761.98

OS-Atlas-7B 在 6 个 OOD benchmark 上全部超过 GPT-4o;SFT setting 下也比从原始 Qwen2-VL/InternVL-2 fine-tune 更强,验证 OS-Atlas-Base 作为 foundation 的价值。

3.4 Ablation:Pre-training + Unified Action

Figure 5. Zero-shot OOD 上的 ablation。 去掉 pre-training(直接从原 VLM SFT)和去掉 unified action space 都掉点;desktop/web 受影响最大(这两个域 fine-tune 数据少甚至没有)。

3.5 OS-Atlas-Pro

把所有 7 个 agent 数据集都用上做 multitask SFT(不再保留 OOD)。

Figure 6. OS-Atlas-Pro 平均 SR。

4. Demos

Video 1. VSCode:Hide __pycache__

Video 2. Chrome:放大字号。

Video 3. Android:通过 Simple Messenger 发短信。


关联工作

基于

  • InternVL-2-4B / Qwen2-VL-7B:两个 backbone VLM。
  • AndroidEnv / OSWorld:分别提供 Android 和 Linux 模拟环境。
  • FineWeb:CommonCrawl 衍生的 URL 来源。
  • Set-of-Mark prompting:让 GPT-4o 标注 IG 数据时定位元素。

对比

  • SeeClick (Cheng et al.):早期 GUI grounding 模型,OS-Atlas 在 ScreenSpot/OSWorld 多项指标上对位完胜。
  • UGround-7B(concurrent work):同期 web-scaling grounding 模型;OS-Atlas 在 standard setting 下平均 +9.2 个点。
  • CogAgent (Hong et al.):早期 GUI VLM,70M element 但闭源。
  • Fuyu / GPT-4V:分别作为 baseline 和被 omit 的对照。

方法相关

  • Mind2Web / AMEX / AITZ / AndroidControl / GUI-Odyssey / OmniAct / GUI-Act-Web:fine-tuning 与评测的 agent benchmark 套件。
  • Ferret-UI / GUICourse:相关 GUI grounding corpus。

论文点评

Strengths

  1. 数据 infra 是真壁垒:跨 5 平台的合成工具链(FineWeb 爬 + AndroidEnv + OSWorld + 物理 Win/Mac + A11y tree DFS/Random Walk)+ 全部开源,是论文的核心贡献。13M elements / 2.3M screenshots 量级 + desktop 数据填了空白。
  2. ScreenSpot-V2 是社区贡献:审计出 11.32% 标注错误并发布修正版,比单纯刷分更有价值。
  3. Unified action space 设计简洁有效:Basic + Custom 两层结构既保持跨平台一致性又支持扩展,ablation 数据扎实(17→10 action types,性能稳定提升)。
  4. OOD 泛化证据强:OmniAct-Desktop 训练完全没见过 desktop agent 数据,零样本 SR 56.73 超 GPT-4o (50.67) ——证明 grounding pre-training 提供的视觉-动作先验是可迁移的。
  5. 对位评估清楚:Grounding mode(在 OSWorld 替换 GPT-4o 的 grounding 模块)和 Action mode(端到端预测)分别评测,避免把两件事混在一起报数。

Weaknesses

  1. Action fine-tuning 数据多样性窄:只用 3 个数据集(2 mobile + 1 web),desktop 完全没见过。“OOD 强”的 narrative 一部分是因为 ID 数据本就稀少。
  2. 没和 GPT-4o 在 grounding 上正面对位:作者主动 omit 了 GPT-4V/GPT-4o 在 ScreenSpot 上的数(理由是”well-studied 且表现差”);用纯专有数据对 SeeClick/UGround/Qwen2-VL 比较,省了一个常被问的对位。
  3. ScreenSpot accuracy 接近饱和:7B 模型 mobile-text 93%、desktop-text 91%,剩下空间小;论文自己也承认需要更难的 benchmark。
  4. OSWorld SR 14.63 离实用还远:OS-Atlas 只解决 grounding 一环,long-horizon planning / error recovery / 状态记忆都没碰;对”开源替代 GPT-4o”的定位有点 over-promised。
  5. 方法上没有 architectural novelty:本质是 VLM + 大规模 GUI grounding SFT;故事是”data infrastructure first”。这没问题,但限制了方法论意义上的引用价值——后续工作引用主要是为用数据/模型,而非 borrow 方法。
  6. Custom action 的 OOD claim 缺定量:论文强调 custom actions 支持”unseen actions defined by users”,但没单独 ablate 这一点,证据偏 anecdotal。

可信评估

Artifact 可获取性

  • 代码: Inference + 部分训练(GitHub 仓库提供 Base-4B/7B 的 inference 脚本;training pipeline 部分开源)。
  • 模型权重: OS-Atlas-Base-4B、OS-Atlas-Base-7B、OS-Atlas-Pro-4B、OS-Atlas-Pro-7B 全在 HuggingFace 发布。
  • 训练细节: Appendix F 给出主要超参(per-backbone 学习率、batch size、训练 step 数),数据配比有概要描述但未完全披露每个 source 的精确比例。
  • 数据集: OS-Atlas-data 全开源(HuggingFace),ScreenSpot-V2 单独发布;desktop 数据收集 infra 在 GitHub。

Claim 可验证性

  • ScreenSpot SOTA:Table 2 有完整 per-platform per-modality 数;HF 模型可复现。
  • OOD agent 超 GPT-4o:Table 4/5 涵盖 6 个 benchmark,SR 显著优势;OmniAct-Desktop 是真 OOD(未见 desktop agent 数据)。
  • Grounding pre-training 在 fine-tune 阶段有正向贡献:Figure 5 ablation 直接对比 w/ vs w/o pre-training。
  • ⚠️ “largest open-source cross-platform GUI grounding corpus”:13.58M elements 确实大,但 CogAgent 报的 70M elements(虽然非开源)量级更大;“open-source 中最大”是真的,去掉限定词就 over-claim。
  • ⚠️ Unified action space 是 OOD 关键:ablation 显示 unified action 有用,但贡献来源没拆开(去 unified ≠ 去某个具体 conflict);degree of effect 与具体 dataset mix 强相关。
  • ⚠️ “open-source alternative to GPT-4o”:Grounding 上 OS-Atlas-Base 可能成立;端到端 agent 在 OSWorld 仍 14.63 vs Human 72.36,这一标语在 grounding 之外的场景被 over-extend。
  • “first LAM specifically designed for GUI agents”:这句在 Related Work 里出现,但 SeeClick / CogAgent / Ferret-UI 都可视为先驱;属于营销性 framing。

Notes

  • Reading angle:作为”ICLR 2025 GUI 基础模型代表作”读,更看重的是数据 infra 和评估清晰度而非方法创新——这也是后续 GUI-Reflection / Aguvis / CogAgent-2 等工作的基线/数据来源。
  • 复用价值:(a) ScreenSpot-V2 + 13M corpus 是高质量公共资源;(b) Unified action space 设计可作为后续 multi-source agent 训练的默认配方;(c) Grounding mode(外接 planner)的 modular 评估值得借鉴。
  • 可挑战的方向:(1) 用 RL 而非 SFT 做 action fine-tuning 是否能进一步打破 SR 上限?(2) Custom action 的 zero-shot 扩展能力缺定量评估,可单独设计 benchmark;(3) OSWorld SR 14.63 的瓶颈是否真在 grounding?换更强 grounding 模型(e.g., Aguvis、UI-TARS)后还能再涨多少,是判断 grounding 是否饱和的好信号。
  • ❓ Web 数据用 1920×1080 整页切片——这个分辨率对 mobile/desktop 真实截图分布是否 biased?没看到 cross-resolution 评估。
  • ❓ A11y tree 在 macOS 上质量普遍较差(很多 app 不暴露完整 tree),论文没讨论这对 macOS 数据质量的影响;54K desktop 截图里 macOS 占比未知。

Rating

Metrics (as of 2026-04-24): citation=272, influential=73 (26.8%), velocity=15.28/mo; HF upvotes=49; github 443⭐ / forks=30 / 90d commits=0 / pushed 368d ago · stale

分数:3 - Foundation 理由:ICLR 2025 Spotlight,OS-Atlas-Base-7B 与 ScreenSpot-V2 已成为后续 GUI agent 工作(UIPro、OS-Sentinel、MGA 等)的标准 baseline / 数据源;开源权重 + 13M 跨平台 corpus 填补了 desktop 的数据空白,复用价值高(对应 Strengths 1-2 与 Notes 的”复用价值”)。Weaknesses 5 指出方法本质是大规模 grounding SFT、缺 architectural novelty;但 rubric 中 benchmark/dataset 类工作”已成为方向的 de facto 标准评测或基础数据”即可到 Foundation 档。2026-04 复核:cc=272 / ic=73(26.8% 远高于典型 ~10%,说明技术被实质继承)/ velocity 15.28/mo,社区影响力符合 Foundation 门槛;ScreenSpot-V2 已被 UI-TARS 等后续主流工作作为标准 grounding 评测——相邻档不选 Frontier,因为它不只是”最近 SOTA 之一”而是已定型为方向入口级资源;github stale 只反映原 repo 维护节奏,不削弱 benchmark/corpus 的奠基属性。