# LLMs-as-Judges: A Comprehensive Survey

> 原文链接：https://arxiv.org/abs/2412.05579
> 作者/来源：清华大学 (Tsinghua University)
> 阅读日期：2026-05-06

## 一句话总结
清华大学团队对 LLM-as-Judge 领域进行全面综述，系统梳理了方法分类、评估维度、已知偏差、改进策略和未来方向。

## 核心论点
- LLM-as-Judge 已成为 LLM 评估的主流范式，但该领域缺乏统一的分类框架
- 本综述将现有方法分为：pointwise scoring、pairwise comparison、listwise ranking 三类
- 系统总结了 LLM Judge 的六大偏差：position bias、verbosity bias、self-enhancement bias、style bias、knowledge bias、format bias
- 改进策略包括：多 judge 集成、校准方法、去偏技术、human-in-the-loop
- 指出该领域的关键开放问题：judge 的 judge 是什么？如何建立 meta-evaluation 标准？

## 关键概念
- **Pointwise/Pairwise/Listwise**：三种基本评估模式
- **Self-Enhancement Bias**：模型倾向于给自己（同系列模型）更高评分
- **Position Bias**：放在前面的选项更容易被选为更好
- **Verbosity Bias**：更长的回答倾向于被评为更好
- **Meta-Evaluation**：评估"评估方法"本身的方法论
- **Calibration**：使评分的绝对值有意义，而非仅有相对排序意义

## 实践建议
- 选择评估模式时：简单任务用 pointwise，模型对比用 pairwise，排行榜用 listwise
- 务必测试并报告 position bias（做 AB/BA swap）
- 使用多个不同的 judge 模型做集成，降低 self-enhancement bias
- 评估 prompt 应包含明确的 rubric，避免模型自行发明标准
- 将 LLM Judge 结果视为"需要验证的假设"而非最终结论

## 独到观点
综述指出一个深层问题：LLM-as-Judge 的流行可能导致"评估同质化"——所有人都用 GPT-4 评估，导致整个领域向 GPT-4 的偏好收敛，而非向真正的质量收敛。

## 与其他文章的关联
- 作为综述，覆盖了本列表中大部分其他论文的主题
- 与 "Judging the Judges" 和 "Who Validates the Validators?" 讨论相同的 meta-evaluation 问题
- 与 "Style Over Substance" 和 "Inconsistent and Biased Evaluators" 的发现被本综述整合
