Summary

RAGEN-2: Reasoning Collapse in Agentic RL

  • 核心: 多轮 agent RL 中存在一种被 entropy 完全遮蔽的失败模式 —— template collapse:reasoning 在同一 input 内看似多样,但跨 input 之间几乎一模一样、对 input 不再敏感
  • 方法: 用 mutual information 作为新诊断(in-batch cross-scoring 的 retrieval-acc / MI-ZScore-EMA),SNR 视角解释 collapse 来自 low reward variance 让 KL/entropy 正则项压过 task gradient;提出 SNR-Aware Filtering(按 prompt 的 reward variance top-p 选样)
  • 结果: MI 与最终性能 Spearman ,entropy 反而 ;SNR-Aware Filtering 在 PPO/DAPO/GRPO/Dr.GRPO、0.5B–7B、Qwen/Llama/Qwen-VL 多个 axis 上几乎一致提升任务成功率(Sokoban 上 +6 ~ +23 pt),且因为 batch 变小 step time 减少 26-41%
  • Sources: paper | website | github
  • Rating: 3 - Foundation(把 entropy 拆成 的 framework + SNR 机制 + single-knob filter,三件事任意一件都足够 reshape 我对 agentic-RL 诊断/干预的 mental model)

Key Takeaways:

  1. Entropy is misleading for reasoning quality: 标准 entropy 只测 (within-input diversity),与 input dependence 正交。Template collapse 表现为高 entropy + 低 MI,被所有现有 process-stability metric 漏检。把 拆开是这篇文章最核心的概念贡献
  2. MI proxy 不需要外部模型:复用 rollout 里的 pair,对每对 跑一遍 teacher-forced log-prob 得到 scoring matrix,retrieval-acc 在 collapse 下退化到 chance level
  3. SNR 机制把 collapse 归因到 gradient 层:低 reward variance 让 task gradient 趋零,而 KL+entropy 的 与 reward variance 无关、保持常量。整批更新被输入无关的方向主导,自然把 压到 0 而 不动
  4. SNR-Aware Filtering 是单参数干预:按 per-prompt reward variance 排序,top- 的 prompt 进梯度更新。零额外 rollout、零额外模型。在 8 个不同 task / 4 个 RL 算法 / 4 个 model size / 文本+视觉两种 modality 上几乎一致提升
  5. 可预测何时有效:Std(RV)/Mean(RV) 比值高 → 信号-噪声 prompt 双峰分布 → filtering 收益大;ratio 接近 0(如 FrozenLake GRPO ratio=0.33)则 filtering 退化为随机丢数据,反而 -5%

Teaser. 四象限 reasoning regime —— template collapse 是右上角的隐性失败模式(高 ),entropy 看不见。


Background:为什么需要重新审视 entropy

Multi-turn agent RL 训练里,研究者长期把 reward 当 outcome stability 的 proxy、把 entropy 当 process stability 的 proxy。但 entropy 是 ambiguous 的:

  • 下降可能是模型变 confident(健康收敛)
  • 保持高位可能是真的多样、也可能是 fixed template 在不同 input 下重复(伪多样)

作者把 marginal entropy 做经典分解:

  • :within-input diversity,entropy metric 测的就是这个
  • :input dependence,反映 reasoning 是否真的随 input 变化

Template collapse 就发生在第二项坍塌而第一项不动的情况下——所有现有 stability metric 看不到。

❓ 这个分解概念上很简单,本质是 。RL 社区之前没人这么用,可能是因为大家默认 reasoning 自然 input-dependent。值得问的是:在 single-turn RLHF 里 template collapse 是否同样普遍?作者没明确做 single-turn 对比。


Diagnosis:MI Proxy Family

In-Batch Cross-Scoring

给定 个 prompt、每个 个 reasoning sample,构造 的打分矩阵:

提取两个 length-normalized 量:

直觉:matched 是 reasoning 在它真正源 prompt 下的 per-token log-likelihood;marginal 是它在 batch 内 prompt 均匀混合下的 log-likelihood。两者之差 = 该 reasoning 对源 prompt 的 specificity。

两个主推 proxy

Retrieval-Acc(discrete,可解释):

Collapse 时趋近 chance level 时 1.56%),有绝对参照。

MI-ZScore-EMA(continuous,鲁棒):

再做 z-score(用 EMA 平滑的 batch std)。Collapse 时分子两项趋近相等,proxy 趋近 0。

Proxy Family 概览

Table 1. MI proxy 家族。沿 turn scope(first-turn vs trajectory)、aggregation(discrete vs continuous)、length normalization(per-token vs per-sequence)三个轴变化。

TypeProxy关键性质
DiscreteRetrieval-AccCollapse 下趋
DiscreteRecall@k
Continuous (raw)MI-EstPer-token,collapse 下 → 0
Continuous (raw)MI-Seq-EstPer-sequence,无长度归一
Continuous (z-score)MI-ZScoreBatch std 归一
Continuous (z-score)MI-ZScore-EMAEMA std 归一,最稳定

验证:MI vs Entropy 与性能的 Spearman 相关

Trajectory MI-ZScore 与最终 task perf 的 Spearman 相关 ;Reasoning Entropy / Conditional Entropy 方向相反)。

Figure 8. MI 家族 metric 与性能正相关,entropy 家族近零或负——entropy 在多轮 agent RL 里作为 process diagnostic 是误导的。


Mechanism:Signal-to-Noise Ratio View

Empirical Observation

把 prompt 按 within-prompt reward variance 分 6 个等大 bucket,分别测 task gradient norm 和 regularization gradient norm:

Figure 3. 三个 pattern:(a) 单调随 RV bucket 上升;(b) RV 趋 0 时 task gradient 仍非零,但携带的有效信号几近为零;(c) (KL + entropy)跨 bucket 完全平稳。

最低 RV bucket 里,更新几乎完全由输入无关的 regularization 主导。

Gradient Decomposition

对 input 条 trajectory,,task gradient

Cauchy-Schwarz 给出:

低 reward variance 直接 cap 住 task gradient 上界,而 不变,于是 SNR 跌掉。

Table 2. 三噪声分解。

Component来源Level可控Mitigation
Same-prompt 不同 trajectory 间真实 reward 差PromptNoSNR-Aware Filtering
Sampling / 环境 stochasticityPromptNoFilter high-noise prompts
KL/entropy 的均匀收缩,与 input 无关ChainYesTune ,

关键观察: 是 chain-level 而非 prompt-level,所有 reasoning chain 都吃到一样的均匀收缩,因此天然 input-agnostic——它就是把 推向零的直接力量。

Figure 2. Schematic SNR view:高 RV → 强 task gradient + 好收敛;低 RV → regularization 主导 + erratic update + input-agnostic reasoning。

这套 SNR 论述把 template collapse 解释为”gradient 层面的 over-regularization”。比之前各种 ad hoc 的 entropy/KL 调参角度漂亮很多——这是这篇 paper 我最喜欢的部分。


Method:SNR-Aware Filtering

Top-p by Reward Variance

每个 iteration:

  1. Rollout:每个 prompt sample 条 trajectory
  2. 按 RV 降序排,accumulate variance mass 至阈值
  3. 只在选中的 prompt 集合 上做梯度更新

类比 nucleus sampling,但对象是 prompt 不是 token。Top-p 比 top-k 更优——它能在某 batch 信号普遍弱时拒绝整批,而 top-k 总是塞满。

Figure 4. SNR-Aware Filtering 工作流:rollout → 算 RV → top-p 选 prompt → 在 high-signal subset 上更新。


Experiments

Setup

Table 3. 7 个 environment:

TaskStochasticMulti-turnStateReward
SokobanGridDense
FrozenLakeGridBinary
MetaMathQATextDense
CountdownTextBinary
SearchQATextDense
WebShopTextDense
DeepCoderTextDense

主体在 Qwen2.5-3B + veRL/HybridFlow stack 上,对比 PPO / DAPO / GRPO / Dr. GRPO,最多 400 iter,每 iter trajectory(默认 )。

Template Collapse 是普遍现象

Figure 5. 训练 dynamics:MI proxy(retrieval acc)早于 task perf 下跌就先开始降,而 conditional entropy 始终高位—— template collapse 的 hallmark。MI 是早期预警信号,entropy 错过整个事件。

Figure 7. 8 个 environment 上 reasoning length 单调下降——template collapse 的 behavioral signature 是输出越来越短、越模板化。

SNR-Aware Filtering 跨 axis 都 work

Table 4. Baseline peak (+filter delta) %。Filtering 在 4 个 task / 4 个算法 / 4 个 model size / 2 个 model family / 文本+视觉 modality 上几乎一致提升 average score。

VariantSokobanFrozenLakeMetaMathCountdownAvg
PPO Qwen2.5-3B12.9 (+16.0)67.0 (+10.9)92.6 (+0.6)97.9 (+0.0)67.6 (+6.9)
DAPO16.2 (+5.1)66.8 (+2.1)90.8 (+2.8)95.7 (+1.6)67.4 (+2.9)
GRPO12.1 (+9.0)70.9 (-3.0)91.2 (+1.2)95.7 (+2.2)67.5 (+3.7)
Dr. GRPO12.1 (-0.4)23.2 (+0.6)91.2 (+1.4)96.5 (+1.4)55.8 (+0.8)
Qwen2.5-0.5B3.3 (+22.9)19.5 (+0.0)10.0 (-0.2)23.0 (-0.7)14.0 (+5.5)
Qwen2.5-7B42.4 (+4.9)85.0 (-0.6)84.0 (+11.7)97.7 (+0.3)77.3 (+4.1)
Llama3.2-3B24.4 (+18.8)84.6 (-0.2)86.1 (+3.7)99.2 (-1.2)73.6 (+5.3)
Qwen2.5-VL-3B (V)65.0 (+12.0)19.5 (+59.5)42.3 (+35.8)

Sokoban 上 PPO baseline 只有 12.9%,加 filter 跳到 28.9%——这是非常大的 gain。但对应基线本身偏弱;DAPO baseline 16.2 + filter → 21.3 仍弱于 GRPO 21.1。值得问的是 filter 是不是把弱基线拉到接近”应得水平”,而非真正打开新 ceiling。Qwen-VL 上 FrozenLake 19.5 → 79.0 的 +59.5 是非常激进的提升,怀疑 baseline 是否调到位。

计算开销

Table 5. 固定 rollout budget 下,filtering 因为减少 effective minibatch size,step time 实际降低 26-41%,VRAM 几乎不变。RV 计算本身 <0.1% 时间。

NF perfF perfNF timeF time%
128×123.689.8
64×218.827.3+8.691.864.9-29%
32×424.227.4+3.289.852.6-41%
8×1615.623.6+8.089.265.9-26%

Causal Analysis

Quartile Ablation —— 直接 RV 干预

将 prompt 按 RV 分四 quartile,每次只用一个 quartile 训练,task perf 和 MI 单调随 quartile 退化(Q1→Q4:21.1→11.0),坐实 RV → gradient quality → input-dependent reasoning 的因果链。

Table 6.

QuartileRV RangeTask Perf (%)MI ProxyEntropy
Q1 (highest RV)[4.4–5.6]21.10.952.02
Q2[1.5–4.2]19.50.931.53
Q3[0.0–0.2]10.70.811.41
Q4 (lowest RV)[0.0–0.1]11.00.731.87

Noise Injection —— 高 stochasticity 下退化

Figure 9. FrozenLake 上把环境 stochasticity 从 0% 调到 100%:task return 跌、entropy 升、 单调降。Filter 优势在 0–50% 维持,80–100% 趋近——high noise 让 RV 失去 discriminative power,恰是机制预测的边界。

Prompt-level vs Trajectory-level Filtering

Table 7. 用 trajectory-level filter(保留 top-8/bottom-8 trajectory)作为对照,确认 gain 不是 prompt distribution shift 带来的。Prompt-level filter 显著优。

MethodPromptsTraj/UpdateTask PerfMI
No filter8/812812.90.83
Prompt-level RV ()3.2/850.623.61.80
Trajectory-level8/86416.80.20

何时有效:Std(RV)/Mean(RV)

Table 8. 这个 ratio 可以从单个 rollout batch 算,训练前就能预判 filter 是否有用。Ratio 高 → bimodal RV → filter 干净分离 signal/noise;ratio 低 → uniform RV → filter 退化为随机丢。

SettingFilter Std/Mean
Sokoban, 14B1.29
Sokoban, 3B1.16
FrozenLake, 3B (GRPO)0.33

这是这篇 paper 我第二喜欢的设计——它没有把 filter 包装成 universal solution,反而给出 cheap, predictable 的失效条件。这种自我诚实在 RL paper 里少见。

与现有 stabilizer 的关系

Figure 13. 三种 intervention 的轨迹:entropy / KL tuning 主要沿 轴动,几乎不动 ;只有 SNR-Aware Filtering 沿对角线(MI ↑ + perf ↑)走。说明三者正交,可叠加使用。

Format Validity ≠ Content Diagnostic

Figure 12. 几乎所有 run 都保持近完美 format validity,但 MI 可以低到 collapse。Format 检查不能替代 content-sensitive diagnostic。


关联工作

基于

  • RAGEN v1 (wang2025ragenunderstandingselfevolutionllm):StarPO 框架 + 多轮 agent RL testbed,本文延续其 testbed 并诊断其失败模式
  • veRL / HybridFlow (sheng2024hybridflow):训练栈
  • Cover & Thomas, Elements of Information Theory 标准分解

对比 / 算法基线

  • PPO (schulman2017proximalpolicyoptimizationalgorithms):经典 baseline
  • DAPO (yu2025dapo):dynamic sampling,本文视作 filter 特例
  • GRPO (shao2024deepseekmathpushinglimitsmathematical):group-relative policy optimization
  • Dr. GRPO (liu2025understandingr1zero):debiased GRPO

方法相关

  • Reasoning collapse / policy degeneracy 文献 (wei2025gtrguidedthoughtreinforcement, yao2025diversityawarepolicyoptimizationlarge, yun2025priceformatdiversitycollapse):报告类似现象,但用 entropy / lexical metric 做 diagnostic,本文论证这些 metric 不充分
  • Model collapse in self-training (gerstgrasser2024modelcollapseinevitablebreaking, Shumailov2024AIMC):closed-loop training 导致分布坍塌的更早期文献
  • Reasoning faithfulness (lanham2023measuringfaithfulnesschainofthoughtreasoning, turpin2023languagemodelsdontsay):CoT 是否真反映 decision basis;本文聚焦 input-dependence 而非 faithfulness
  • EPO (xu2025epoentropyregularizedpolicyoptimization)、Diversity-aware PO (yao2025diversityawarepolicyoptimizationlarge):entropy / diversity regularization 类干预,本文显示它们沿 轴动而不动 ,与 SNR filter 正交

论文点评

Strengths

  1. 概念贡献清晰且 generalize:把 entropy 拆成 是非常 first-principles 的视角。一旦提出,回头看会觉得”显然”——这是好 framework 的标志。MI proxy 的 in-batch cross-scoring 几乎零额外开销(复用 rollout 已有的 sequences),落地门槛极低
  2. SNR 机制把现象到方法的因果链打通:从经验观察(gradient 按 RV bucket 的差异)→ 数学分解(Cauchy-Schwarz bound)→ 干预方法(top-p RV filter)→ 因果验证(quartile ablation + noise injection)一脉相承。Quartile ablation 尤其漂亮——是真正的因果证据而非 correlation
  3. 失效条件明确:Std(RV)/Mean(RV) 是 cheap diagnostic,可以预训练阶段判断 filter 是否值得开。这种”知道方法什么时候不 work”的诚实在 RL paper 里非常少见
  4. 跨 axis 验证 breadth 够:4 task × 4 algo × 4 model size × 2 model family × 2 modality,覆盖维度足以排除是某个特定 setup 的伪影
  5. Compute 反而下降:filter 因为减小 effective batch,step time 降 26-41%,意味着这个方法 strictly dominates baseline(精度↑ + 时间↓)

Weaknesses

  1. Baseline 强度问题:PPO Sokoban baseline 只有 12.9%,filter 后 28.9% 仍低于直接用 GRPO 21.1%。许多大 gain 集中在弱 baseline + 难 task 上。怀疑 filter 部分作用是把”调参不到位的 baseline”补到合理水平。应该 report:在最强基线(如 GRPO + 充分调 KL/entropy)之上 filter 还能提多少
  2. Qwen2.5-VL 上 FrozenLake +59.5 的 delta 太极端:baseline 19.5 → 79.0。这种量级的提升通常预示 baseline 没收敛或某个 hyperparam 错了,需要 sanity check
  3. MI proxy 依赖 in-batch sample 时 retrieval chance level ,区分度可能不够。 取多大才稳作者没系统 ablate
  4. 多轮信号被压扁:MI proxy 只看每个 turn 的 reasoning ,trajectory variant 是 uniform 跨 turn 采样。多轮 agent 的 reasoning 应该有 turn-position-dependent 结构(早期 turn 偏 plan、后期偏 reactive),uniform 处理可能掩盖 partial collapse
  5. DAPO 已经做 filtering,作者把它视作”top- filter with “的特例。但 DAPO 的 dynamic sampling 实质是 reject zero-advantage rollout,机制不完全等价。需要更细致的 ablation 把两种 filter 解耦
  6. 没讨论与 reward shaping 的交互:dense reward 任务(Sokoban / WebShop / DeepCoder)和 binary reward 任务(FrozenLake / Countdown)filter delta 差异巨大,但作者没把这条 axis 单独拆出讨论
  7. Multi-agent / long-horizon 外推未做:作者自己在 Limitations 提到了,单 agent 上的结论能否迁到 multi-agent RL(reward 更稀疏、更 noisy)是开放问题

可信评估

Artifact 可获取性

  • 代码: inference + training(mll-lab-nu/RAGEN,含 SNR-Adaptive Filtering 实现)
  • 模型权重: 未说明(README 未列 released checkpoint)
  • 训练细节: 较完整——RL algo(PPO/DAPO/GRPO/Dr.GRPO)+ veRL/HybridFlow stack + Qwen2.5 / Llama3.2 / Qwen2.5-VL + 默认 + keep rate + 400 iter;具体每个 task 的 reward 设计、env config、 取值在 Appendix
  • 数据集: 全部开源——Sokoban / FrozenLake / MetaMathQA / Countdown / SearchQA / WebShop / DeepCoder 都是公开 env

Claim 可验证性

  • MI proxy 与性能 Spearman +0.39,entropy 负相关:Figure 8 对多个 intervention sweep 系统计算,方法 reproducible
  • Quartile ablation 显示 RV → MI/perf 单调关系:Table 6 的 controlled intervention 是真正的因果证据
  • Filtering 跨 4 task × 4 algo × 4 model size × 2 modality 提升 average:Table 4 covered grid 充分
  • Step time 降 26-41%:Table 5 直接 wall-clock 测量
  • ⚠️ “Template collapse 是 systematic failure mode”:在所有 RL setting 下都出现的 claim 强但只在 RAGEN testbed(特定 task subset、特定 stack)验证,外推到生产规模 RLHF 是 extrapolation
  • ⚠️ “DAPO 是 SNR-Aware Filtering 的 特例”:概念类比 plausible 但两者 filtering rule 不完全等价(DAPO 是基于 advantage 是否非零的硬筛选,而非 RV 排序),需要更直接的 head-to-head
  • ⚠️ VL 模型 +59.5 pt FrozenLake:异常大的 delta 可能暗示 baseline 未充分收敛
  • ❌ 无明显营销话术;论文整体态度克制,自己列出 Limitations 并指出 filter 可能被 model gaming(人为膨胀 RV)

Notes

  • 概念上最大的 takeaway:把 entropy 拆成 MI + conditional entropy 这一步看起来”显然”,但作为 RL training diagnostic 之前没人做。这是典型的”有了 framework 之后觉得显然”的好工作。值得迁移到其他 closed-loop training 场景(self-improvement、RLAIF、Constitutional AI)问同样问题——它们的 process metric 是否也漏检 cross-input collapse?
  • 方法可移植性:SNR-Aware Filtering 是 single-knob, drop-in,理论上能直接加到任何 group-based RL(GRPO 系列、RLOO、ReMax 等)。值得跑一下 RLHF 主流 stack(如 OpenRLHF / verl mainline)上的对照实验
  • 与 RV-based curriculum 的关系:很多 curriculum / hard-example mining 工作也按 reward / advantage variance 选样。本文 framework 给出了从 SNR 角度统一这些方法的可能路径——它们也许都在隐式提升 SNR,只是没明确说
  • ❓ MI proxy 在 long-horizon 上的可靠性:trajectory variant uniform 跨 turn 采样可能稀释信号。如果按 turn position 分别测 MI,是否能看到 collapse 先在某些 turn position 上发生?这是 cheap follow-up
  • ❓ 与 RLVR / 规则 reward 的交互:本文实验 reward 都是 task-level(成功/失败、step bonus)。如果是 verifier-based dense reward(如 PRM),RV 分布形态会很不同,filter 行为可能改变
  • ❓ 预测 RV 分布:Std(RV)/Mean(RV) 是事后 diagnostic。能否在 task / dataset 层面有先验预测?例如 binary reward + low-success-rate task 必然 RV 集中在低区,filter 不会有效
  • 写作上:作者主动列 Limitations 并标出”capable model 可能 game filter(artificially inflate RV)“——这种自我诚实是 evidence-driven 的标志

Rating

Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=65; github 2632⭐ / forks=220 / 90d commits=25 / pushed 10d ago

分数:3 - Foundation 理由:给了一个 generalize 的 framework( 分解 + SNR 归因),不是 +0.3% SOTA 类工作——它会改变我今后看 agentic-RL paper 的诊断习惯(必问是否有 template collapse)。MI proxy 和 top-p filter 都是 zero-overhead、可 drop-in 到任何 group-based RL stack 的 artifact(Strengths 1/5),外加 quartile ablation 这种真因果证据(Strengths 2)——这些让它超出 “2 - Frontier(某个 SOTA / baseline)” 的定位;不是 3 却又比 2 更高的边界在于:虽然还没被社区作为”必引”验证(论文才出),但其 framework 的 first-principles 程度和可迁移性已经具备 foundation 的潜质。