# Learning to Plan & Reason for Evaluation

> 原文链接：https://arxiv.org/abs/2501.18099
> 作者/来源：arXiv 2025
> 阅读日期：2026-05-06

## 一句话总结
提出让 LLM Judge 学会先制定评估计划再执行推理的框架，通过结构化的评估思维链提升判断质量。

## 核心论点
- 直接让 LLM 输出评分往往导致浅层判断，缺乏对评估维度的系统考量
- 本文引入"plan-then-reason"范式：judge 先生成评估计划（要检查哪些方面），再逐一推理
- 通过训练数据中包含高质量评估计划的示例，模型可以学会更系统的评估策略
- 评估计划的显式化还提升了可解释性——用户可以看到 judge 在关注什么
- 实验表明这种方法在多个 benchmark 上优于直接评分和简单 CoT

## 关键概念
- **Evaluation Plan**：在评估前先列出需要检查的维度和标准
- **Plan-then-Reason**：先规划再执行的两阶段评估策略
- **Structured Chain-of-Thought**：结构化的思维链，比自由 CoT 更有组织
- **Rubric Decomposition**：将整体评估标准分解为可逐一检查的子项
- **Evaluation Trace**：完整的评估过程记录，支持审计和调试

## 实践建议
- 在 judge prompt 中明确要求先列出评估计划，再逐项打分，最后综合
- 评估计划应与 rubric 对应，确保不遗漏关键维度
- 可以用少量人工编写的"模范评估"作为 few-shot 示例
- 对于复杂评估任务（如长文档质量评估），plan-then-reason 的收益尤为明显

## 独到观点
这种方法本质上是将人类专家的评估认知过程显式化并教给模型。类比教育领域的"元认知"——不仅教学生答题，还教他们如何思考答题策略。

## 与其他文章的关联
- 与 "Incentivizing Agentic Reasoning" 理念一致，都在让 judge 进行更深度的推理
- 与 "Style Over Substance" 相关：plan 机制可以避免 judge 被表面特征迷惑
- 与 "ALLURE: Auditing LLM Evaluation" 互补：plan 的显式化使审计成为可能