# Are LLM-Judges Robust to Uncertainty in Their Inputs?

> 原文链接：https://arxiv.org/abs/2410.20774
> 作者/来源：（学术论文，2024）
> 阅读日期：2026-05-06

## 一句话总结
研究当输入存在不确定性（噪声、歧义、不完整信息）时，LLM judge 的判断是否仍然稳健。

## 核心论点
- 真实评估场景中的输入通常不完美：存在噪声、歧义或信息缺失
- LLM judge 对输入扰动的鲁棒性直接决定其实用性
- 需要区分"输入不确定性"和"judge 本身的不确定性"

## 关键概念
- **Input Uncertainty**：评估输入本身的噪声和歧义
- **Robustness to Perturbation**：面对输入变化时保持一致判断
- **Graceful Degradation**：随输入质量下降，评估质量平缓退化而非崩溃
- **Ambiguity Handling**：judge 如何处理歧义输入

## 实践建议
- 测试 judge 时应包含各种质量水平的输入
- 对低质量输入，judge 应能表达不确定性而非强行给分
- 建立 judge 的"输入质量门槛"：低于门槛时不评估
- 在真实部署中监控输入质量与评估可靠性的关系

## 独到观点
- 大多数 judge 研究假设输入是干净的，但实际中这一假设很少成立
- "鲁棒性"不仅是模型属性，更是系统设计问题

## 与其他文章的关联
- 与 "Analyzing Uncertainty of LLM-as-Judge" 互补：输入不确定性 vs. judge 不确定性
- 与 SCORE 相关：都在测试 robustness，但 SCORE 关注被评估模型
- 与 "Systematic Evaluation of LLM-as-Judge" 相关
