Summary

提出 UI-TARS-2,通过 data flywheel + multi-turn RL + 大规模并行环境基础设施,训练 GUI agent 在 OSWorld、AndroidWorld 等多个 benchmark 上取得 SOTA,并将 GUI 操作扩展到游戏和软件工程场景。

Problem & Motivation

GUI agent 面临四个核心挑战:(1) 高质量交互轨迹数据极度稀缺且采集成本高;(2) multi-turn RL 中 sparse reward、delayed feedback 和 long-sequence credit assignment 困难;(3) 仅依赖 GUI 交互不足以应对需要文件系统、终端等工具的真实工作流;(4) 大规模 RL 环境的可复现性和容错性是工程瓶颈。现有方法主要依赖 behavior cloning,泛化性差且缺乏错误恢复能力。

Method

Data Flywheel:模型生成的轨迹按质量分流——低质量用于 continual pre-training,高质量经验证后用于 SFT,可验证任务用于 RL,形成”更好模型→更好数据→更好模型”的自增强循环。

Multi-Turn RL 训练

  • 任务设计:覆盖三个领域——GUI-Browsing(信息检索,含 obfuscated questions)、GUI-General(690+ 网站的操作任务)、Gameplay(HTML5/WebGL 游戏)
  • Reward 系统:确定性可验证任务用 function-based verifier 或 LLM-as-Judge;开放任务用模型自身作为 generative outcome reward model
  • RL 算法(PPO 变体增强):reward shaping、Decoupled GAE(分离 policy/critic 系数)、Length-Adaptive GAE、value pretraining、asymmetric clipping 促进探索

GUI-SDK 扩展:统一 GUI 操作与系统级工具(终端、文件系统),支持 SWE-Bench 等软件工程任务。

大规模环境基础设施:分布式 VM 平台(Windows/Ubuntu/Android),支持数千并发实例;游戏环境使用 GPU 加速浏览器沙箱。

Parameter Interpolation:多个 domain-specific agent 通过加权参数平均合并:θ(merge) = Σ αk·θ(k),避免联合优化成本。

Key Results

  • OSWorld: 47.5%(+5.0% vs UI-TARS-1.5)
  • WindowsAgentArena: 50.6%(+8.5%)
  • AndroidWorld: 73.3%(+9.1%)
  • Online-Mind2Web: 88.2%(+4.5%)
  • SWE-Bench(GUI-SDK): 68.7%
  • BrowseComp-zh: 50.5%,BrowseComp-en: 29.6%
  • 15-Game Suite: mean normalized score 59.8(超 OpenAI CUA +35.0,超 Claude +38.2)
  • 基座模型:Seed-thinking-1.6

Strengths & Weaknesses

Strengths:

  • Data flywheel 是优雅的解法,将数据质量分层自动化,避免浪费
  • Multi-turn RL 的工程实现非常扎实,Decoupled GAE 和 Length-Adaptive GAE 解决了实际训练中的关键问题
  • 跨域泛化令人印象深刻:browser 上的 RL 训练迁移到 OSWorld/AndroidWorld
  • Parameter interpolation 是实用的多域整合策略,成本远低于联合训练

Weaknesses:

  • VLM-as-verifier 假阳性率高(F1 仅 83.8),reward signal 噪声可能限制 RL 上限
  • 计算资源需求巨大(数千 VM 实例),可复现性存疑
  • 游戏训练出现明显 plateau 和 regression,暗示 reasoning 能力可能存在天花板
  • GUI-SDK 扩展虽有前景,但与专用系统差距仍大
  • 缺乏系统性的 failure mode 分析

影响: 为 GUI agent 的 RL 训练建立了工程范式,data flywheel 思路可迁移到其他 embodied agent 领域。

Mind Map

mindmap
  root((UI-TARS-2))
    Problem
      数据稀缺
      Multi-turn RL 困难
      GUI-only 局限
      环境可扩展性
    Method
      Data Flywheel
      PPO 变体增强
      GUI-SDK 扩展
      Parameter Interpolation
      大规模分布式环境
    Results
      OSWorld 47.5%
      AndroidWorld 73.3%
      SWE-Bench 68.7%
      Game 59.8 normalized

Notes

  • Data flywheel 的关键 insight:不是所有数据都适合所有训练阶段,按质量分流是比过滤丢弃更高效的策略
  • Length-Adaptive GAE 值得关注——multi-turn agent 的 trajectory 长度方差极大,统一超参显然不合理
  • 与 ComputerRL 的对比:两者都用 RL 训练 GUI agent,但 UI-TARS-2 更偏工程系统,ComputerRL 更偏算法创新(Entropulse)