# Analyzing Uncertainty of LLM-as-Judge

> 原文链接：https://arxiv.org/abs/2509.18658
> 作者/来源：（学术论文，2025）
> 阅读日期：2026-05-06

## 一句话总结
深入分析 LLM-as-Judge 的不确定性来源、量化方法和对下游决策的影响。

## 核心论点
- LLM judge 的不确定性来自多个来源：认知不确定性（epistemic）和随机不确定性（aleatoric）
- 当前大多数 LLM-as-Judge 应用忽视了不确定性量化
- 不确定性感知的评估决策比点估计更可靠

## 关键概念
- **Epistemic Uncertainty**：由知识不足导致的不确定性（可通过更多数据减少）
- **Aleatoric Uncertainty**：任务固有的不确定性（不可消除）
- **Calibration**：judge 的置信度与实际准确率的对齐
- **Uncertainty Quantification (UQ)**：量化不确定性的方法
- **Selective Evaluation**：对高不确定性样本回退到人工评估

## 实践建议
- 使用多次采样估计 judge 的不确定性
- 设置不确定性阈值：超过阈值时标记为"需要人工审核"
- 区分模型"不确定"和模型"错误"——前者可管理，后者更危险
- 在聚合评估结果时用不确定性加权

## 独到观点
- 将 UQ 文献引入 LLM-as-Judge 是一个有价值的交叉
- "知道自己不知道"是 judge 可靠性的关键特征

## 与其他文章的关联
- 与 "Efficient Inference for Noisy LLM-as-Judge" 直接相关
- 与 "Are LLM-Judges Robust to Uncertainty?" 互补
- 与 "Adding Error Bars" 相关：不确定性量化是 error bars 的基础
- 与 PPI 相关：不确定性信息可指导人工标注分配