# How to Correctly Report LLM-as-Judge Evaluations

> 原文链接：https://arxiv.org/abs/2511.21140
> 作者/来源：arXiv 2025
> 阅读日期：2026-05-06

## 一句话总结
系统性地指出当前 LLM-as-Judge 评估报告中的常见统计错误，并提出一套规范化的报告框架。

## 核心论点
- 大量论文在使用 LLM-as-Judge 时存在报告不规范的问题：缺少置信区间、忽略多重比较校正、未报告 judge 的一致性指标
- 仅报告 win rate 而不考虑统计显著性是不科学的，微小差异可能只是 judge 噪声
- LLM Judge 的评估结果本身带有方差，必须像对待人类标注一样进行统计分析
- 提出了一套完整的报告清单（checklist），包括：样本量说明、置信区间、效应量、judge 间一致性、position bias 检查等

## 关键概念
- **Statistical Significance**：评估结果差异是否具有统计显著性
- **Confidence Interval**：win rate 的置信区间，反映结果不确定性
- **Inter-rater Agreement**：多个 judge（或同 judge 多次）之间的一致性（Cohen's Kappa, Krippendorff's Alpha）
- **Position Bias**：A/B 对的顺序对判断的影响，需通过 swap 测试检测
- **Multiple Comparisons**：同时比较多个模型时需要 Bonferroni 或 FDR 校正
- **Effect Size**：不仅看是否显著，还要看差异有多大

## 实践建议
- 每次报告 LLM-as-Judge 结果时，至少包含：样本量、置信区间、position bias 检测结果
- 使用 bootstrap 方法估计 win rate 的置信区间（至少 1000 次重采样）
- 对 pairwise comparison 务必做 AB/BA swap，报告 swap 后一致率
- 比较 3 个以上模型时使用 Elo rating 或 Bradley-Terry 模型而非两两 win rate
- 公开评估 prompt 模板和具体 judge 模型版本

## 独到观点
本文实质上是在呼吁 LLM 评估领域建立类似医学研究中 CONSORT 声明的报告规范。这对领域成熟化非常重要——当前太多工作仅凭 "GPT-4 says A is better" 就下结论。

## 与其他文章的关联
- 直接补充 "Systematic Evaluation of LLM-as-Judge" 的方法论
- 与 "Inconsistent and Biased Evaluators" 发现的问题对应，本文提供报告层面的解决方案
- 与 "Judging the Judges" 互补，后者评估 judge 质量，本文规范如何报告 judge 结果
