# Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations

> 原文链接：https://arxiv.org/abs/2411.00640
> 作者/来源：Anthropic
> 阅读日期：2026-05-06

## 一句话总结
为 LLM 评估引入统计学的误差条（error bars）和置信区间，使 benchmark 结果从"伪精确"走向"诚实的不确定性"。

## 核心论点
- 当前 LLM 评估报告单一数字而不附带不确定性估计，导致虚假的精确感
- 评估中的随机性来源包括：样本抽样、prompt 变体、评估者差异、模型生成随机性
- 通过适当的统计方法可以量化这些不确定性并报告有意义的置信区间

## 关键概念
- **Error Bars**：评估分数的置信区间，反映测量的不确定性
- **Sources of Variance**：抽样方差、prompt方差、annotator方差、generation方差
- **Statistical Significance**：两个模型差异是否超出噪声范围
- **Bootstrap Methods**：通过重采样估计分布的统计技术
- **Power Analysis**：确定需要多少样本才能检测到有意义的差异

## 实践建议
- 所有评估结果都应报告置信区间
- 比较模型时使用假设检验确认差异的统计显著性
- 设计评估时进行 power analysis 以确定合理样本量
- 分离不同方差来源以理解不确定性的主要驱动因素

## 独到观点
- 来自 Anthropic 的"自我约束"：作为模型开发者主动呼吁更审慎的评估报告
- 将评估提升为统计推断问题而非简单的计分问题
- 暗示当前很多"SOTA 声明"在统计上可能不成立

## 与其他文章的关联
- 与 "The Leaderboard Illusion" 直接相关：error bars 是破解幻觉的工具
- 与 SCORE 互补：SCORE 测一致性，error bars 量化统计不确定性
- 与 "Prediction-Powered Inference" 相关：PPI 是一种特殊的统计推断框架
- 与 "Elo Uncovered" 相关：Elo 评分也需要置信区间
