# Evaluating AI under Uncertain Ground Truth

> 原文链接：https://arxiv.org/abs/2307.02191
> 作者/来源：Google (2023)
> 阅读日期：2026-05-06

## 一句话总结
探讨当"正确答案"本身不确定时如何有效评估 AI 系统，提出处理评估不确定性的方法论框架。

## 核心论点
- 许多实际任务没有单一正确答案（如创意写作、开放式问答）
- 在 ground truth 不确定时，传统的正确率指标失效
- 需要容忍不确定性的评估方法
- 评估不确定性应被量化和报告，而非忽视

## 关键概念
- **Uncertain Ground Truth**：正确答案本身存在争议或多种合理选择
- **Inter-annotator Disagreement**：标注者之间的分歧反映了任务的内在模糊性
- **Probabilistic Evaluation**：将评估结果视为概率分布而非确定值
- **Calibrated Confidence**：评估结果附带合理的置信度估计
- **Multi-reference Evaluation**：使用多个参考答案而非单一标准

## 实践建议
1. 识别哪些评估任务存在固有的不确定性
2. 使用多标注者并报告一致性度量
3. 对开放式任务使用 rubric-based 而非 exact-match 评估
4. 报告评估结果的置信区间
5. 接受"没有完美评估"并设计对不确定性鲁棒的决策流程

## 独到观点
论文挑战了评估领域的隐含假设——"存在正确答案"。在创意任务、主观判断和开放问题上，这个假设不成立，需要全新的评估哲学。

## 与其他文章的关联
- 为 LLM-as-a-Judge 方法提供了理论基础：为什么 pairwise comparison 比 absolute scoring 更适合不确定场景
- 与 ACL robustness 论文在评估可靠性主题上互补
- 为 Anthropic agent evals 中"两个专家能否一致"的标准提供了理论背景
- 挑战了 SimpleQA 等"明确答案" benchmark 的适用范围假设