# Efficient Inference for Noisy LLM-as-Judge

> 原文链接：https://arxiv.org/abs/2601.05420
> 作者/来源：arXiv 2025
> 阅读日期：2026-05-06

## 一句话总结
提出在 LLM-as-Judge 存在噪声（不一致性）的现实条件下，如何通过统计方法高效利用有限的推理预算获得可靠评估结果。

## 核心论点
- LLM 作为评判者时并非确定性函数，同一输入多次评估可能给出不同分数，这种噪声是固有的
- 传统做法是多次采样取平均/多数投票，但推理成本高昂
- 本文提出基于统计推断的框架，在给定置信度要求下最小化所需的 LLM 调用次数
- 通过建模 judge 的噪声分布（如 Beta 分布或分类分布），可以用序贯检验（sequential testing）等方法提前终止采样
- 核心思想：不需要所有样本都收集完才做判断，当证据足够强时可以提前停止

## 关键概念
- **Noisy Judge**：LLM 评判的随机性，同一 prompt 不同次调用结果不同
- **Sequential Testing**：序贯假设检验，逐步收集证据直到达到统计显著性
- **Inference Budget**：推理预算约束下的最优采样策略
- **Early Stopping**：当置信度已满足时提前终止评估，节省 token 开销
- **Calibration**：校准 judge 的输出概率使其反映真实质量差异

## 实践建议
- 在大规模评估任务中，不要固定采样次数，而应根据样本间一致性动态决定是否继续采样
- 对于"明显"的好坏差异，1-2 次采样即可；对于边界案例才需要更多采样
- 建议先用小规模标注数据估计 judge 的噪声水平，再据此设计采样策略
- 可与 confidence score / logprob 结合使用，进一步减少不必要的重复调用

## 独到观点
将经典统计推断（序贯分析）与现代 LLM 评估结合，提供了一个理论框架来量化"多少次采样才够"这一实践中常被忽略的问题。这比简单的 "majority vote of 3/5 times" 更有理论依据。

## 与其他文章的关联
- 与 "Analyzing Uncertainty of LLM-as-Judge" 互补，后者分析不确定性来源，本文提供应对方案
- 与 "Are LLM-Judges Robust to Uncertainty?" 相关，都关注 judge 的可靠性
- "Replacing Judges with Juries" 用多模型投票降噪，本文用同模型多次采样降噪
