# LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

> 原文链接：https://arxiv.org/abs/2412.05579
> 作者/来源：arXiv preprint (2024)
> 阅读日期：2026-05-06

## 一句话总结
全面综述 LLM 作为评估者（LLM-as-Judge）的方法、应用场景、优势和局限性。

## 核心论点
- LLM-as-Judge 已成为替代人类评估的主流范式，在成本和速度上有巨大优势
- 但存在系统性偏差：position bias、verbosity bias、self-enhancement bias
- 不同 judge 模型之间的一致性（inter-judge agreement）参差不齐
- 需要建立 LLM-as-Judge 的校准和验证机制，不能盲目信任

## 关键概念
- **Pointwise evaluation**：对单个输出打分（如 1-5 分）
- **Pairwise comparison**：比较两个输出的优劣
- **Reference-guided judging**：提供参考答案辅助评判
- **Position bias**：LLM 倾向于偏好某个固定位置的答案
- **Verbosity bias**：LLM 倾向于给更长的回答更高分
- **Self-enhancement bias**：LLM 倾向于给自己生成的内容更高评价
- **Calibration**：使 judge 的评分分布与人类评估对齐

## 实践建议
- 使用 pairwise comparison 而非 pointwise scoring 可以减少偏差
- 对 position bias 的缓解：交换答案位置做两次评估取平均
- 选择与被评估模型不同家族的 LLM 作为 judge 以减少 self-enhancement bias
- 定期用人类评估校准 LLM judge 的表现
- 提供详细的 rubric 和 few-shot examples 提升评判一致性

## 独到观点
- 系统性梳理了各种 bias 的成因和缓解策略
- 提出 LLM-as-Judge 的适用边界：对于主观性强的任务效果好，对于需要专业知识的任务可能不可靠
- 讨论了 judge 模型自身进化对评估稳定性的影响

## 与其他文章的关联
- 直接支撑 AlpacaEval、ArenaHard 等使用 LLM judge 的 leaderboard 的方法论基础
- 与 Mozilla AI LLM-as-Judge toolkit 的实践实现呼应
- 与 "Order in the Evaluation Court" 的评估趋势批判形成对话
