# Analyzing Uncertainty of LLM-as-Judge

> 原文链接：https://arxiv.org/abs/2509.18658
> 作者/来源：arXiv 2025
> 阅读日期：2026-05-06

## 一句话总结
系统分析 LLM-as-Judge 的不确定性来源，将其分解为 aleatoric（数据固有）和 epistemic（模型知识不足）两类，并提出量化方法。

## 核心论点
- LLM Judge 的不确定性不是单一的，需要区分来源才能有针对性地处理
- Aleatoric uncertainty：源于任务本身的模糊性（如两个回答质量确实接近），无法通过更好的模型消除
- Epistemic uncertainty：源于模型能力不足或知识缺乏，可通过更大模型或更好 prompt 降低
- 通过多次采样的方差分解、MC Dropout、ensemble 等方法可以量化两类不确定性
- 高 epistemic uncertainty 的样本应该交给人类标注，高 aleatoric uncertainty 的样本应标记为"tie"

## 关键概念
- **Aleatoric Uncertainty**：数据固有的不确定性，如主观偏好任务中合理的分歧
- **Epistemic Uncertainty**：可通过获取更多知识/能力消除的不确定性
- **Uncertainty Decomposition**：将总不确定性分解为两个组成部分
- **Predictive Entropy**：用模型输出的熵衡量不确定性
- **Selective Evaluation**：根据不确定性水平选择性地进行人工审核

## 实践建议
- 在评估 pipeline 中加入不确定性估计，对低置信度判断标记 flag
- 利用 logprobs 作为不确定性的快速代理指标（无需多次采样）
- 对于 epistemic uncertainty 高的样本，尝试提供更详细的 rubric 或 few-shot examples
- 建立"人机协作"评估流程：LLM 处理确定性高的样本，人类处理不确定的

## 独到观点
通过不确定性分解，可以诊断评估系统的瓶颈在哪里：如果主要是 aleatoric uncertainty，说明 rubric 定义不够明确；如果主要是 epistemic uncertainty，说明需要更强的 judge 模型或更好的 prompt。

## 与其他文章的关联
- 与 "Efficient Inference for Noisy Judge" 直接相关：不确定性分析为高效采样策略提供理论基础
- 与 "Are LLM-Judges Robust to Uncertainty?" 互补，后者关注 robustness，本文关注量化
- 与 "How to Correctly Report LLM-as-Judge" 相关：不确定性量化是规范报告的前提
