Summary
Kimi K2.5 是一个开源多模态 agentic 模型,通过 joint text-vision 训练(含 zero-vision SFT 和跨模态 RL)实现文本与视觉的双向增强,并提出 Agent Swarm 并行 agent 编排框架实现 3-4.5× 延迟降低和显著性能提升。
Problem & Motivation
当前多模态大模型面临两个核心瓶颈:(1) 视觉与文本能力的训练通常是分离的,视觉能力作为后期”注入”导致模态之间无法深度协同;(2) 单 agent 架构在复杂任务上受限于串行执行,延迟高、无法高效分解并行子任务。Kimi K2.5 旨在同时解决这两个问题——让视觉与文本在训练全阶段互相增强,并构建可学习的并行 agent 编排系统。
Method
基础模型
基于 Kimi K2 构建:1.04T 总参数,32B 激活参数,384 experts(每 token 激活 8 个,48% 稀疏度),在 15T 高质量文本 token 上用 MuonClip optimizer 预训练。
Joint Text-Vision 训练
- MoonViT-3D 视觉编码器:采用原生分辨率处理(NaViT patch packing)。视频处理时每 4 帧一组共享 MoonViT,patch 级时序平均实现 4× 时序压缩,图像和视频编码器完全共享权重。
- Native Multimodal Pre-Training:核心发现——早期融合 + 低视觉比例(10% vision tokens)优于后期注入 + 高视觉比例(50%)。全程保持恒定的 vision-text token mixing。
- Decoupled Encoder Process (DEP):解决 pipeline parallelism 中的负载不均衡问题,在所有 GPU 上均衡视觉前向,丢弃中间激活值后重算,实现相对纯文本 baseline 90% 的多模态训练效率。
三阶段预训练 (~15T tokens)
- ViT Training (1T tokens):从 SigLIP 继续训练图文对
- Joint Pre-training (15T tokens):视觉与文本联合训练,4K 序列长度
- Long-context Mid-training:通过 YaRN 插值将上下文扩展至 262K tokens
Zero-Vision SFT
关键发现:纯文本 SFT 可以激活视觉推理能力。图像操作通过 IPython 代理执行,实现像素级操作和物体定位等多样视觉行为,无需专门的视觉训练数据。
跨模态 RL 迁移
视觉 RL 显著提升文本性能:MMLU-Pro 84.7%→86.4%,GPQA-Diamond 84.3%→86.4%,LongBench v2 56.7%→58.9%。证明了双向跨模态增强的有效性。
Token-Efficient RL (Toggle)
交替执行 budget-limited 和标准 scaling 两个阶段:Phase 0 在准确率超过阈值 λ 时强制 token 预算限制;Phase 1 允许完整 token 使用。在 K2 Thinking 上实现 25-30% token 减少,性能影响可忽略。
Agent Swarm (PARL)
- 架构:Parallel-Agent Reinforcement Learning,可训练 orchestrator + 冻结的 subagents(来自中间策略检查点)。解耦设计避免端到端联合优化的 credit assignment 模糊和训练不稳定问题。
- 奖励设计:
r = rperf + λ₁·rparallel + λ₂·rfinish,其中 rparallel 防止退化为串行,rfinish 防止虚假并行。λ₁ 和 λ₂ 在训练中退火至零。 - Critical Steps 指标:
∑(Smain(t) + max Ssub,i(t)),直接激励有效并行化和延迟降低。 - Context 管理:主动 context sharding 而非被动截断,维护任务级连贯性同时保持 subagent 上下文有界。
Key Results
推理与通用能力:
- AIME 2025: 96.1%(接近 GPT-5.2 满分)
- HMMT 2025: 95.4%
- GPQA-Diamond: 87.6%
- MMLU-Pro: 87.1%
- HLE-Full (with tools): 50.2%
编程:
- SWE-Bench Verified: 76.8%
- LiveCodeBench v6: 85.0%
- SWE-Bench Multilingual: 73.0%
- Terminal Bench 2.0: 50.8%
Agentic 任务:
- BrowseComp: 78.4% (Agent Swarm,超过 GPT-5.2 Pro 77.9%)
- WideSearch: 79.0% (Agent Swarm)
- DeepSearchQA: 77.1%
视觉:
- MMMU-Pro: 78.5%
- MathVista (mini): 90.1%
- VideoMMMU: 86.6%
- OCRBench: 92.3%
Computer Use:
- OSWorld-Verified: 63.3%
- WebArena: 58.9%
Agent Swarm 加速:WideSearch 上 3×-4.5× 延迟降低;BrowseComp +17.8% 绝对提升。
Strengths & Weaknesses
Strengths:
- 跨模态双向增强是核心 insight:zero-vision SFT 和 visual RL 提升文本性能的发现非常有价值,说明模态间存在深层互补而非简单叠加
- Agent Swarm 的 PARL 设计精巧:orchestrator 与 subagent 解耦训练解决了多 agent RL 的核心难题(credit assignment),奖励退火机制优雅
- 工程深度:DEP 解决多模态 pipeline parallelism 负载均衡,Toggle 实现 token 效率优化,都是落地所需的关键工程
- 全面 SOTA:在推理、编程、视觉、agentic 多个维度同时达到顶尖水平,BrowseComp 超过 GPT-5.2 Pro
Weaknesses:
- Agent Swarm 的适用边界不够清晰:论文承认依赖任务可分解性,但未给出量化判断标准——什么类型的任务适合并行化?
- 551 作者的 industry report:资源规模难以复现,15T tokens + 1T 参数 MoE 的训练成本极高
- Ablation 有限:跨模态迁移的机制解释较浅,为什么 visual RL 能提升 MMLU-Pro?因果路径不够清晰
- Computer Use 结果中等:OSWorld 63.3% 和 WebArena 58.9% 仍有很大提升空间,作为主打 “agentic intelligence” 的模型,GUI agent 能力尚未拉开差距
Mind Map
mindmap root((Kimi K2.5)) Problem 视觉-文本训练分离 单agent串行瓶颈 Method Joint Text-Vision Training MoonViT-3D 原生分辨率 早期融合优于后期注入 Zero-Vision SFT 跨模态 RL 迁移 Agent Swarm PARL Orchestrator + 冻结 Subagents 奖励退火机制 Critical Steps 延迟优化 Token-Efficient RL Toggle Results AIME 96.1% BrowseComp 78.4% 超 GPT-5.2 Pro 3-4.5x 延迟降低 跨模态增强 MMLU-Pro +1.7%
Notes
- 与我们研究的关联:Agent Swarm 的 PARL 框架对 computer-use agent 的多步任务编排有直接参考价值。orchestrator 作为可学习的 meta-policy 而非硬编码规则,是值得探索的方向。
- 关键疑问:zero-vision SFT 的 IPython proxy 机制具体是什么?文本指令如何映射到像素级操作?这个桥接机制的 generalization 边界在哪里?
- Agent Swarm vs. 传统 tool-use:PARL 本质上是让 LLM 学会”管理其他 LLM”,与 hierarchical RL 的 option framework 有精神上的联系,但用 frozen subagent 回避了联合训练的难题——是否会限制 subagent 的适应性?