# Incentivizing Agentic Reasoning via Reinforcement

> 原文链接：https://arxiv.org/abs/2510.23038
> 作者/来源：Google
> 阅读日期：2026-05-06

## 一句话总结
Google 提出通过强化学习激励 LLM 在评估/推理任务中展现 agentic 行为（主动搜索、验证、分解），从而提升评判质量。

## 核心论点
- 传统 LLM Judge 是"一次性"判断：读入内容，直接输出评分。这种模式对复杂任务不够可靠
- Agentic reasoning 让 judge 能够主动分解问题、搜索相关信息、自我验证，类似人类专家的审慎评估
- 通过 RL（强化学习）训练模型学会何时需要额外推理步骤、何时可以直接判断
- 奖励信号来自最终判断与 ground truth 的一致性，中间推理过程不做硬约束
- 这种方法让模型自主发现有效的评估策略，而非人为规定推理模板

## 关键概念
- **Agentic Reasoning**：模型主动采取多步行动（分解、搜索、验证）而非被动一次输出
- **Reinforcement Learning for Judging**：用 RL 训练 judge 学习最优评估策略
- **Tool Use in Evaluation**：judge 可以调用工具（计算器、代码执行器）验证答案
- **Self-Verification**：模型生成判断后自我检查，发现矛盾时修正
- **Reward Shaping**：设计奖励函数引导模型发展出有效的评估行为

## 实践建议
- 对于需要事实验证的评估任务（如数学、代码），让 judge 使用工具验证而非纯靠"直觉"
- 可以通过 Chain-of-Thought 提示初步模拟 agentic 行为，再用 RL 优化
- 在部署时需权衡推理深度与延迟/成本：简单任务用快速判断，复杂任务触发深度推理
- 适合高风险评估场景（如安全审核、医疗内容质量评估）

## 独到观点
本文将 agent 范式引入评估领域，暗示未来的 LLM Judge 不再是简单的分类器，而是具有自主推理能力的评估 agent。这与 "System 1 vs System 2" 的认知框架类似——重要判断需要慢思考。

## 与其他文章的关联
- 与 "Learning to Plan & Reason for Evaluation" 理念相近，都在让 judge 具备深度推理能力
- 与 "ChatEval: Multi-Agent Debate" 互补：ChatEval 用多 agent 辩论，本文用单 agent 深度推理
- 与 "Efficient Inference for Noisy Judge" 形成张力：深度推理提升质量但增加成本