Summary
提出 Skill0,一个通过 curriculum-based in-context RL 将 skill 从推理时的外部 context 内化为模型参数的框架,在 ALFWorld 和 Search-QA 上分别取得 +9.7 和 +6.6 的提升,同时将每步 token 开销压缩到 <0.5k。
Problem & Motivation
当前 LLM agent 主流做法是推理时检索 skill 并注入 context,但这带来三个根本问题:1)retrieval noise 引入无关指导;2)注入的 skill 内容占用大量 token,在多轮交互中开销显著;3)模型始终在”跟随”外部指令而非真正”习得”知识。作者类比人类学习过程——从显式指导到内化为自主能力——提出能否通过 RL 系统性地实现这一转变。这个问题重要,因为它直接关系到 agent 的 inference 效率和 zero-shot 泛化能力。
Method
Skill0 实现 In-Context Reinforcement Learning (ICRL),核心思想是训练时提供 skill context,推理时完全移除。框架包含三个关键组件:
1. Visual Context Rendering
- 将交互历史 和检索到的 skill 映射为紧凑的 RGB 图像,通过 vision encoder 压缩:
- 压缩比 由 policy 在每步自适应生成,和 task action 一同输出
- 大幅降低 token 开销,同时保留结构化信息
2. Composite Reward
- 任务奖励 + 压缩奖励的组合:
- 压缩奖励用对数形式 (仅在任务成功时给予),体现边际递减效应
- PPO-style 优化,带 KL 正则化
3. Adaptive Curriculum Learning(核心创新)
- Phase A(离线):按任务类别对 skill 分组,每个 skill 对应验证子任务
- Phase B(在线):分 个 stage,skill budget 线性衰减:
- 每隔 步在验证集上计算每个 skill 的 helpfulness (有 skill vs 无 skill 的性能差),仅保留 的 skill
- Filter → Rank → Select 三步管线:过滤有害 skill,按价值排序,在 budget 内选取
- 最终 stage budget 降为 0,agent 完全无 skill 运行
线性衰减保证相邻 stage 间 context 变化有界(约 个 skill),避免 PPO 训练不稳定。
Key Results
ALFWorld(text-based embodied AI):
- 3B 模型:87.9% 平均成功率,比 RL baseline AgentOCR 高 +9.7%,每步仅 0.38k tokens(SkillRL 需 2.21k)
- 7B 模型:89.8% 成功率,比 AgentOCR 81.2% 高 +8.6%
Search-QA(7 个 QA 数据集):
- 3B 模型:40.8% 平均准确率,比 AgentOCR 高 +6.6%
- 7B 模型:44.4%,在 OOD 多跳任务 Bamboogle 上达到 66.9%
训练动态:随 curriculum 推进,with-skill 和 without-skill 性能差逐渐缩小,最终趋同——证实 skill 确实从 context 内化到了参数中。
Ablation:
- 静态 budget [6,6,6] 移除 skill 后性能骤降 -13.3%;Skill0 的 [6,3,0] 仅 +1.6%
- 移除 ranking/selection → 性能崩溃 -13.7%(随机选 skill 严重干扰学习)
- 移除 filter → -2.7%(context noise)
Strengths & Weaknesses
Strengths:
- 问题定义精准:skill internalization 是一个清晰且重要的问题,区别于以往只关注推理时 skill augmentation 的工作
- 方法简洁有效:linear budget decay + helpfulness-based selection 的设计直觉清晰,有理论分析支撑 KL divergence bound
- 实验有说服力:训练动态图(helpfulness 先升后降)直接验证了 internalization 假说;ablation 充分,拆解了每个组件的贡献
- 实际价值大:5-6× token 压缩对部署成本意义显著
Weaknesses:
- 依赖初始 SkillBank 质量:skill 来源于 SkillRL,方法本身不解决 skill 的生成/发现问题
- 离线分组需人工干预:skill-task 的对应关系需要按 domain 手动划分,迁移到新 domain 需重新分组
- 视觉压缩的必要性未充分论证:将 text context 渲染为 RGB 图像再用 vision encoder 压缩这一设计比较 unconventional,论文未和直接文本压缩方法对比
- 评估 benchmark 相对简单:ALFWorld 和 Search-QA 的 action space 较小,skill0 在更复杂的 open-ended 环境(如 real web、code generation)中是否同样有效未知
- scale 不确定:仅在 3B/7B 上实验,对更大模型是否还需要这种 curriculum 机制未探讨
Mind Map
mindmap root((Skill0)) Problem 推理时 skill 检索引入噪声 Token 开销大 模型不真正习得 skill Method Visual Context Rendering 交互历史→RGB图像 自适应压缩比 Composite Reward 任务奖励 + 压缩奖励 PPO + KL 正则 Adaptive Curriculum 线性 budget 衰减 Helpfulness-based selection Filter→Rank→Select Results ALFWorld +9.7% Search-QA +6.6% Token 压缩 5-6× Internalization 训练动态验证
Notes
- 与 SkillRL(同组前作)是配套关系:SkillRL 负责 skill 发现与积累,Skill0 负责 skill 内化。两者组合构成一个完整的 skill lifecycle
- Curriculum learning 中 helpfulness metric 的设计值得借鉴——用 on-policy 验证而非 semantic similarity 来衡量 skill 价值,这比静态检索更能适应学习动态
- 视觉压缩的 idea 有趣但存疑:本质上是用 vision encoder 做 context compression,这与直接做 text summarization 或 learned compression 相比优劣如何?
- 对 GUI agent 领域的启发:当前 GUI agent 也大量依赖推理时的 prompt engineering(task decomposition、few-shot examples),能否用类似的 curriculum RL 将这些”外部知识”内化?