# Are LLM-Judges Robust to Uncertainty?

> 原文链接：https://arxiv.org/abs/2410.20774
> 作者/来源：arXiv 2024
> 阅读日期：2026-05-06

## 一句话总结
探究 LLM Judge 在面对不确定或模糊输入时的鲁棒性，发现模型往往过度自信且缺乏合理的"弃权"机制。

## 核心论点
- LLM Judge 即使面对模糊的、质量相近的回答对，也倾向于给出明确的偏好判断，而非表达不确定性
- 这种过度自信导致评估结果的"虚假精度"——看似明确但实际不可靠
- 当输入包含矛盾信息或模糊指令时，judge 的判断一致性大幅下降
- 鲁棒的 judge 应该能够：(1) 识别何时无法做出可靠判断；(2) 主动表达"tie"或"uncertain"
- 提出了评估 judge 鲁棒性的 benchmark，包含不同不确定性水平的测试用例

## 关键概念
- **Robustness**：judge 对输入扰动（如同义改写、顺序变化）的稳定性
- **Overconfidence**：模型给出高置信度判断但实际准确率不匹配
- **Abstention**：judge 主动拒绝给出判断的能力
- **Calibration Gap**：模型置信度与实际准确率之间的差距
- **Perturbation Testing**：通过微小扰动测试判断稳定性

## 实践建议
- 在评估系统中引入"tie"选项，并明确告诉 judge 可以选择不判断
- 通过 logprob 分析检测过度自信的判断（如概率 > 0.9 但 swap 后改变）
- 对关键决策使用 perturbation testing：稍微改变输入看判断是否稳定
- 报告结果时区分"高置信判断"和"边界判断"，给予不同权重

## 独到观点
论文揭示了 LLM Judge 的一个结构性问题：RLHF 训练使模型习惯于"总是给出明确答案"，这在生成任务中是优点，但在评估任务中可能是缺点——好的评估者需要知道何时"我不确定"。

## 与其他文章的关联
- 与 "Analyzing Uncertainty of LLM-as-Judge" 高度互补：一个分析不确定性来源，一个测试鲁棒性
- 与 "Efficient Inference for Noisy Judge" 相关：不鲁棒的判断本质上是噪声的一种
- 与 "Inconsistent and Biased Evaluators" 发现一致：不一致性部分源于对不确定性的处理不当
