# Systematic Evaluation of LLM-as-Judge

> 原文链接：https://arxiv.org/abs/2408.13006
> 作者/来源：arXiv 2024
> 阅读日期：2026-05-06

## 一句话总结
对 LLM-as-Judge 方法进行系统性的实验评估，测试不同配置（模型选择、prompt 设计、评分方式）对评估质量的影响。

## 核心论点
- LLM-as-Judge 的实施细节（prompt 模板、评分量表、示例选择）对结果有巨大影响，但多数论文不报告这些细节
- 系统性对比实验发现：pairwise comparison 通常比 pointwise scoring 更可靠
- Judge prompt 中的 rubric 详细程度与评估质量正相关；模糊的 rubric 导致不一致
- 温度设置（temperature）对评估结果有非平凡影响：temperature=0 并不总是最佳选择
- 不同任务类型（摘要、对话、翻译）适合不同的评估配置，不存在"万能配置"

## 关键概念
- **Evaluation Configuration**：prompt 模板、评分量表、温度、few-shot 等设置的组合
- **Pointwise vs Pairwise**：绝对评分 vs 相对比较两种评估模式
- **Rubric Specificity**：评估标准的详细程度和明确程度
- **Configuration Sensitivity**：评估结果对配置细节的敏感程度
- **Reproducibility**：评估实验的可重复性

## 实践建议
- 明确报告所有评估配置细节：prompt 模板全文、温度、模型版本、API 调用时间
- 对重要评估任务，先做 pilot study 测试不同配置的效果
- Pairwise comparison 更适合模型对比；pointwise scoring 更适合监控绝对质量
- 使用 5-point 量表比 binary（好/坏）或 10-point 量表更稳定
- 每次评估至少做 3 次独立运行，报告方差

## 独到观点
本文揭示了 LLM-as-Judge 领域的一个"可重复性危机"：由于配置细节的影响巨大但报告不充分，很多论文的评估结果可能无法复现。这与心理学领域的可重复性危机有相似之处。

## 与其他文章的关联
- 与 "How to Correctly Report LLM-as-Judge" 直接互补：本文发现问题，后者提出报告规范
- 与 "LLMs-as-Judges Survey" 相关：Survey 的理论框架在此得到实验验证
- 与 "Inconsistent and Biased Evaluators" 发现一致：不一致性部分源于配置不当
