# LLMs-as-Judges: A Comprehensive Survey

> 原文链接：https://arxiv.org/abs/2412.05579
> 作者/来源：Tsinghua University（清华大学）
> 阅读日期：2026-05-06

## 一句话总结
清华大学出品的 LLM-as-Judge 综合综述，系统梳理方法分类、偏见类型、改进策略和未来方向。

## 核心论点
- LLM-as-Judge 已成为 LLM 评估的主流范式，但存在多种系统性偏见
- 方法可分为：pointwise（单样本评分）、pairwise（配对比较）、listwise（列表排序）
- 核心挑战包括：position bias、verbosity bias、self-preference、calibration

## 关键概念
- **Pointwise/Pairwise/Listwise**：三种评估粒度
- **Position Bias**：评判结果受内容位置影响
- **Verbosity Bias**：偏好更长的回答
- **Self-Preference**：偏好自己生成的内容
- **Calibration**：judge 置信度与准确率的对齐
- **Debiasing Methods**：去偏方法（位置交换、多次采样等）

## 实践建议
- Pairwise 比较中交换位置并取平均以消除 position bias
- 使用多个不同的 judge 模型组成"陪审团"
- 对长度控制以减少 verbosity bias
- 定期用人类评估校准 judge

## 独到观点
- 综述视角：将零散的研究组织为系统的知识体系
- 指出 LLM-as-Judge 领域正在从"能用"向"用好"转变

## 与其他文章的关联
- 是整个 LLM-as-Judge 领域的"地图"，与几乎所有同目录文章都有关联
- 与 "Style Over Substance" 相关：verbosity bias 的详细分析
- 与 "Replacing Judges with Juries" 相关：多 judge 策略
- 与 "Judging LLM-as-Judge" 相关：Chatbot Arena 作为验证平台
