Summary
提出 RAP (Reasoning via Planning) 框架,将 LLM 同时用作 world model 和 reasoning agent,结合 Monte Carlo Tree Search (MCTS) 进行 deliberate reasoning,在 plan generation、math reasoning、logical inference 上显著超越 CoT 等 baseline。
Problem & Motivation
现有 LLM reasoning 方法(如 Chain-of-Thought)本质是 autoregressive token generation,缺乏对未来状态的预判和策略性探索能力。人类推理过程涉及对行动后果的”心理模拟”(即 world model),并通过 planning 在推理空间中搜索最优路径。RAP 将这一认知机制引入 LLM reasoning:让 LLM 既充当 world model(预测 action 后的 state transition),又充当 reasoning agent(选择 action),再用 MCTS 做 principled exploration。
Method
核心思想:将 LLM reasoning 重新定义为 planning 问题。
- LLM as World Model: 给定当前 state 和 action,LLM 预测下一个 state(即 state transition)。通过 prompt engineering 让 LLM 模拟环境动态。
- LLM as Reasoning Agent: LLM 同时负责在当前 state 下提议可能的 action candidates。
- Monte Carlo Tree Search (MCTS): 在 reasoning tree 上做 strategic exploration,每个 node 是一个 state,edge 是 action。MCTS 通过 UCB1 平衡 exploration vs. exploitation,用 task-specific reward function 评估路径质量。
- Reward Design: 针对不同任务设计 reward——plan generation 用 goal achievement,math reasoning 用 self-evaluation confidence,logical inference 用 logical consistency。
整个框架不需要 fine-tuning,仅用 prompting 驱动。
Key Results
- Blocksworld (Plan Generation): LLaMA-33B + RAP 在 2-step 达到 100%,4-step 达到 88%,而 CoT 仅 17% 和 2%。RAP + LLaMA-33B 超越 GPT-4 + CoT(33% relative improvement)
- GSM8K (Math Reasoning): RAP 达到 48.8% accuracy,超越 CoT 和 Least-to-Most + Self-Consistency baseline
- Logical Inference: 在 PrOntoQA 等逻辑推理 benchmark 上同样取得一致提升
- 关键发现:MCTS 的 exploration-exploitation 平衡对性能提升至关重要
Strengths & Weaknesses
优势:
- 框架优雅:将 reasoning 统一建模为 planning with world model,概念清晰且有认知科学支撑
- 不需要 fine-tuning,纯 prompting-based,即插即用
- 在 plan generation 上让 LLaMA-33B 超越 GPT-4 + CoT,展示了 inference-time compute 的巨大潜力
- MCTS 的引入使 LLM 具备了 deliberate、strategic exploration 的能力
- 通用框架,可应用于多种推理任务
不足:
- MCTS 推理开销较大,每个问题需要多次 LLM 调用(inference cost 高)
- World model 完全依赖 LLM 的 in-context 能力,对于复杂环境动态可能不够准确
- Reward function 需要针对每个任务手动设计,泛化性受限
- GSM8K 上 48.8% 的绝对数值在当前视角看并不突出(后续模型已大幅超越)
Mind Map
mindmap root((RAP)) Problem CoT 缺乏 planning 无 world model 预判 Method LLM as World Model State transition prediction LLM as Agent Action proposal MCTS UCB1 exploration Task-specific reward Results Blocksworld 超越 GPT-4 GSM8K 48.8% Insight Inference-time compute Reasoning as planning
Notes
- 这是 inference-time compute / test-time scaling 方向的先驱工作之一,与后来的 o1 思路有共通之处
- 核心 insight:LLM 本身就可以充当 world model,不需要额外训练独立的环境模型
- 框架的局限在于 MCTS 的计算开销,但随着 inference 成本下降,这类方法的实用性会持续提升
- Rating 4 因为其框架思想对 embodied reasoning 和 task planning 有直接启发