Summary
提出 OpenCUA,一个开源的 computer-use agent 框架,包含标注工具 AgentNet Tool、大规模桌面 agent 数据集 AgentNet(22.6K trajectories, 3 OS, 140+ apps)、以及 reflective long CoT 训练方法,训练的 OpenCUA-72B 在 OSWorld-Verified 上达到 45.0% 成功率,为开源模型 SOTA。
Problem & Motivation
Computer-use agent 的核心瓶颈是高质量训练数据的缺乏——现有数据集规模小、覆盖面窄、且缺少真实用户行为的复杂性。同时开源模型与闭源模型(如 Claude Sonnet 4.5 达 61.4%)之间存在巨大差距。现有方法的 reasoning 质量不足,缺乏 error recovery 能力。OpenCUA 旨在从数据基础设施、数据规模和训练方法三个层面系统性地解决这些问题。
Method
1. AgentNet Tool(标注基础设施)
- 跨 OS(Windows/macOS/Ubuntu)的桌面操作采集工具
- 非侵入式后台运行,记录屏幕视频、鼠标/键盘信号、accessibility tree
- 基于 DuckTrack、OpenAdapt、OBS Studio 构建
2. AgentNet Dataset
- 22,625 个人工标注桌面任务(41,428 条 training trajectories)
- 12K Windows + 5K macOS + 5K Ubuntu,覆盖 140+ 应用、190+ 网站
- 平均每条 trajectory 18.6 步,要求任务复杂度 >15 步
3. Data Processing Pipeline
- Action Reduction: 压缩冗余信号(合并鼠标移动、滚动、连续按键)
- State-Action Matching: 提取动作前关键帧,回溯鼠标移动前状态避免信息泄露
4. Reflective Long Chain-of-Thought(核心创新)
- 三层结构化 CoT:L3(视觉/文本观察)→ L2(反思推理、error correction、规划)→ L1(可执行动作)
- Reflection Augmentation Pipeline: Reflector(对比前后截图检测错误)→ Generator(生成结构化 CoT)→ Summarizer(精炼目标、打分)
- 使用 Claude 3.5 Sonnet 合成
5. Training Data Mixture
- CoT Format Mixture: 混合 L1/L2/L3 推理格式(比纯 L2 提升 41%)
- Domain Mixture: grounding 数据 + planning 数据 + general SFT
- 三种训练策略:Stage 2 Only / Stage 1+2 / Joint Training
6. Context Encoding
- Textual History: L1 CoT 对话式内心独白
- Visual History: 3 张截图为最优平衡点(比 1 张提升 52%)
- Test-time 使用 L2 CoT 提供更丰富推理
Key Results
- OSWorld-Verified (100-step): OpenCUA-72B 45.0%(开源 SOTA),超过 Claude 4 Sonnet (41.5%), UI-TARS-72B-DPO (27.1%)
- Pass@3: 53.2%,显示 test-time compute scaling 潜力
- GUI Grounding: UI-Vision 37.3%(超 UI-TARS 25.5%),ScreenSpot-V2 92.9%
- AgentNetBench: OpenCUA-32B 79.1% avg SR,超过 OpenAI CUA (73.1%)
- Data Scaling: Ubuntu 3K→10K 数据提升 72%,Win/Mac 3K→14K 提升 125%
- Reflective CoT: 比无反思版本提升 32.2%
Strengths & Weaknesses
Strengths:
- 系统性工程贡献: 从标注工具到数据集到模型的完整开源 pipeline,降低了 computer-use agent 研究的门槛
- Data scaling law 验证: 证明了桌面 agent 数据的 scaling 效果,方向正确
- Reflective CoT 设计精巧: 三层结构化推理 + reflection augmentation 显著提升 error recovery,是关键 insight
- 全面的 ablation: 对 CoT 格式、visual history、data mixture 等均有细致消融,结论可信
Weaknesses:
- 与 Claude Sonnet 4.5 仍有 16.4% 差距——gap 的来源是 base model 能力还是数据质量?未充分分析
- Robustness 问题严重: 即使 deterministic decoding,环境微小变化导致 18.5% 性能波动,说明策略的鲁棒性不足
- CoT 合成依赖 Claude 3.5 Sonnet: 数据质量上限受限于 teacher model,且成本不透明
- Real-world applicability 存疑: 平均 18.6 步的任务在真实场景中偏简单,长 horizon 任务(>50 步)收益递减
- Privacy concern: 采集真实用户桌面操作的隐私和安全考量未充分讨论
Mind Map
mindmap root((OpenCUA)) Problem 开源 CUA 模型与闭源差距大 缺乏大规模桌面 agent 数据 Reasoning 和 error recovery 不足 Method AgentNet Tool 跨 OS 标注 22.6K trajectories 数据集 Reflective Long CoT 三层推理 Data Mixture 训练策略 Results OSWorld-Verified 45.0% 开源 SOTA Pass@3 53.2% Data scaling law 验证 Reflective CoT +32% 提升
Notes
- 与 AgentTrek (2412.09605) 来自同一团队 XLANG Lab,OpenCUA 是后续更大规模的工作
- Reflection augmentation 的思路可推广到其他 agent 领域——embodied agent 的 error recovery 同样是核心挑战
- 关键开放问题:data scaling 的天花板在哪里?是否存在 data quality > data quantity 的拐点?
- AgentNetBench 作为 offline evaluation 的设计值得关注——在线评估成本太高时的替代方案