# How to Correctly Report LLM-as-Judge Evaluations

> 原文链接：https://arxiv.org/abs/2511.21140
> 作者/来源：（学术论文，2025）
> 阅读日期：2026-05-06

## 一句话总结
提出 LLM-as-Judge 评估结果的正确报告规范，解决当前文献中普遍存在的报告不完整和误导性问题。

## 核心论点
- 当前使用 LLM-as-Judge 的论文在报告方式上存在系统性问题
- 缺少关键信息：judge 模型版本、prompt、temperature、重复次数等
- 需要标准化的报告规范以确保结果的可复现性和可解读性

## 关键概念
- **Reporting Standards**：LLM-as-Judge 评估的最低报告要求
- **Judge Configuration**：judge 的完整配置信息（模型、参数、prompt）
- **Reproducibility Checklist**：确保结果可复现的检查清单
- **Confidence Reporting**：报告评估结果的置信度和不确定性
- **Aggregation Transparency**：聚合方法的透明化

## 实践建议
- 报告完整的 judge 配置：模型名称+版本、API参数、完整prompt
- 报告多次运行的方差和置信区间
- 公开 judge 的已知偏见和局限性
- 提供评估原始数据以支持独立分析

## 独到观点
- 这是一篇"规范性"论文——重点不在发现而在建立标准
- 报告不规范本身可能比 judge 偏见更损害领域可信度

## 与其他文章的关联
- 与 "Lessons from Trenches" 相关：报告规范是可复现性的关键
- 与 "Evaluation Guidelines" 互补：更具体地针对 LLM-as-Judge 场景
- 与 "Adding Error Bars" 相关：不确定性报告是核心要求之一
- 与 "Systematic Evaluation of LLM-as-Judge" 相关：系统评估需要标准化报告
