Summary

提出 UI-TARS,一个端到端 native GUI agent,仅以 screenshot 为输入,通过增强感知、统一 action space、System-2 reasoning 和迭代训练实现 SOTA,在 OSWorld 和 AndroidWorld 等 10+ benchmark 上超越 GPT-4o 和 Claude。

Problem & Motivation

现有 GUI agent 主要依赖 agent framework(在商用 LLM/VLM 外包裹 prompt engineering 和工具调用),存在三大局限:(1) 依赖手工设计的 prompt 和 workflow,泛化性差;(2) 跨平台迁移困难;(3) 无法持续自我提升。需要一种端到端训练的 native agent 方案。

Method

基于 Qwen-2-VL(7B/72B),总训练量约 50B tokens。核心组件:

1. Perception 增强

五项训练任务提升 GUI 理解能力:

  • Element Description:描述元素类型、外观、位置、功能
  • Dense Captioning:整体界面布局理解
  • State Transition Captioning:连续截图间的变化检测
  • Question Answering:多样化 GUI 理解 QA
  • Set-of-Mark Prompting:为 GUI 元素关联视觉标记,改善定位

2. Unified Action Space

跨平台统一 action 定义:

  • 共享:Click(x,y), Drag, Scroll, Type, Wait
  • Desktop 专属:Hotkey, LeftDouble, RightSingle
  • Mobile 专属:LongPress, PressBack, PressHome
  • 终止:Finished, CallUser

训练数据:自建标注数据集(7.5M 元素,平均 14.9 步/trace)+ 开源数据(MM-Mind2Web, GUIAct, AITW, AITZ 等)。Web 14.8M / Mobile 2.5M / Desktop 1.1M grounding samples。

3. System-2 Reasoning

  • GUI Tutorial 训练:从 MINT 和 OmniCorpus 筛选约 6M 高质量教程
  • Thought Augmentation:在 action trace 中注入六种推理 pattern:
    • Task Decomposition / Long-term Consistency / Milestone Recognition
    • Trial & Error / Reflection / State Description

4. Iterative Training with Reflection

  • Online Trace Bootstrapping:数百台虚拟机上自动探索,多阶段过滤(规则 + VLM 评分 + 人工)
  • Reflection Tuning:通过 DPO 训练错误识别与恢复能力
    • Error Correction:标注员标记错误并给出纠正
    • Post-Reflection:模拟错误后的恢复步骤

Key Results

  • VisualWebBench(Perception):UI-TARS-72B 82.8 vs GPT-4o 78.5
  • ScreenSpot Pro(Grounding):UI-TARS 38.1(SOTA)
  • OSWorld(Online):
    • 50 steps: UI-TARS-72B 24.6 vs Claude 22.0
    • 15 steps: UI-TARS-72B 22.7 vs Claude 14.9
  • AndroidWorld:UI-TARS-72B 46.6 vs GPT-4o 34.5
  • System-2 reasoning 在 in-domain 提升 3-8%,out-of-domain 提升 5-12%

Strengths & Weaknesses

Strengths:

  • 端到端设计:消除对 prompt engineering 和外部工具的依赖,知识可跨平台迁移
  • 数据飞轮:online bootstrapping + reflection tuning 构建了持续改进闭环
  • System-2 reasoning 的具体化:六种 thought pattern 是对 “slow thinking” 的有效工程实现
  • 规模化验证:10+ benchmark 全面 SOTA,说服力强

Weaknesses:

  • 72B 模型的推理延迟可能限制实际部署(每步需要 VLM inference)
  • 数据构建成本高(数百台 VM、大量标注),复现门槛高
  • Screenshot-only 在某些场景可能不如 HTML/accessibility tree 高效(如精确文本提取)
  • 未讨论 safety 和 adversarial robustness

影响: 确立了 native GUI agent 路线的可行性和优越性,是 computer-use agent 领域的里程碑工作。其 System-2 reasoning + iterative training 范式可能成为后续工作的标准。

Mind Map

mindmap
  root((UI-TARS))
    Problem
      Framework-based agent 局限
      跨平台迁移困难
      无法持续自我提升
    Method
      Perception 增强
        5 项训练任务
        Element/Dense/Transition/QA/SoM
      Unified Action Space
        跨平台统一定义
        18.4M grounding samples
      System-2 Reasoning
        6M GUI tutorials
        6 种 thought pattern
      Iterative Training
        Online bootstrapping
        Reflection tuning via DPO
    Results
      OSWorld 24.6 SOTA
      AndroidWorld 46.6 SOTA
      ScreenSpot Pro 38.1 SOTA
      System-2 OOD +5-12%

Notes

  • UI-TARS 的四阶段 agent 演化框架值得关注:Rule-based → Agent Framework → Native Agent → Active Lifelong Agent
  • Reflection tuning(DPO on error traces)是核心创新之一,类似 RL from failure 的思想
  • 与 ACU Survey 的六大 gap 对应:UI-TARS 在 generalization(vision + unified action)、learning(iterative)、planning(System-2)三个方面提供了具体解决方案
  • 7B 版本的性能数据值得关注——如果 7B 也有竞争力,部署成本大幅降低