# Using LLMs for Evaluation (LLM-as-a-Judge)

> 原文链接：https://cameronrwolfe.substack.com/p/llm-as-a-judge
> 作者/来源：Cameron R. Wolfe
> 阅读日期：2026-05-06

## 一句话总结
深度综述 LLM-as-a-Judge 方法论：原理、优势、已知偏见、缓解策略和最佳实践。

## 核心论点
- LLM-as-a-Judge 是解决人工评估不可扩展问题的最有前景方案
- 该方法存在系统性偏见（position bias、verbosity bias、self-preference bias），但可通过设计缓解
- 与人类评估的一致性已达到人类标注者间一致性的水平
- 正确使用需要理解其局限性并设计相应的校正措施

## 关键概念
- **Position Bias**：评估时偏好特定位置（如第一个）的回答
- **Verbosity Bias**：倾向给更长回答更高分，无论实质质量
- **Self-preference Bias**：模型偏好自己或同系列模型的输出
- **Pairwise Comparison**：让 LLM 比较两个输出而非独立打分，提高区分度
- **Swap Augmentation**：交换比较顺序后取平均，缓解 position bias
- **Reference-guided Judging**：提供参考答案帮助 judge 校准标准
- **Multi-agent Debate**：多个 LLM judge 讨论后达成共识

## 实践建议
1. 始终使用 swap augmentation 缓解 position bias
2. 明确评分标准（rubric），不要让 judge 自行定义质量
3. 用小规模人工标注验证 judge 的准确性
4. 对关键决策使用多个 judge 交叉验证
5. 避免用模型评估自己（或同系列模型）的输出
6. Pairwise comparison 通常比 pointwise scoring 更可靠

## 独到观点
Cameron 指出 LLM-as-a-Judge 的元讽刺：我们用一个可能有缺陷的模型去评估另一个模型，但这与人类评估的本质（用有偏见的人类去评估模型）并无根本区别。关键是偏见是否系统性的、是否可校正。

## 与其他文章的关联
- 是 Sebastian Raschka 四种方法中 Approach 3 的深度展开
- Eugene Yan 的 "align LLM evaluators" 步骤直接应用了这些方法
- 与 ACL 论文 "Robustness of LLM evaluation" 在偏见分析上互补
- Anthropic agent evals 中的 model-based grader 是其具体应用
