# Benchmarks as Targets: On the Sensitivity of Benchmark Leaderboards

> 原文链接：https://arxiv.org/abs/2402.01781
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
运用 Goodhart's Law 视角分析 benchmark 作为优化目标时的脆弱性，展示排行榜对微小方法论变化的高度敏感性。

## 核心论点
- Goodhart's Law 在 LLM 评估中完全适用：当 benchmark 成为目标，它就不再是好的衡量标准
- 排行榜对评估细节的敏感性远超模型间的真实差异
- "Gaming the benchmark" 不需要恶意——正常的优化过程就会导致指标失真

## 关键概念
- **Goodhart's Law**："当一个指标成为目标时，它就不再是好的指标"
- **Leaderboard Sensitivity**：排行榜对评估参数的敏感度分析
- **Benchmark Overfitting**：针对特定 benchmark 的过度优化
- **Construct Underrepresentation**：benchmark 只能捕捉目标能力的部分方面

## 实践建议
- 将多个 benchmark 组合使用以降低 gaming 的收益
- 定期更新和轮换 benchmark 内容
- 报告对评估超参数（prompt格式、few-shot数量等）的敏感性
- 将 benchmark 结果视为信号而非真相

## 独到观点
- 将经济学中的 Goodhart's Law 严格应用于 ML 评估是一种有力的理论框架
- 即使没有人故意"作弊"，正常的模型选择过程也会导致 benchmark 指标膨胀

## 与其他文章的关联
- 与 "The Leaderboard Illusion" 互为表里：一个讲敏感性，一个讲幻觉
- 与 "Don't Make Your LLM a Benchmark Cheater" 直接相关
- 与 "Data Contamination Through Time" 相关：污染是 gaming 的一种形式
- 与 "Lifelong Benchmarks" 相关：动态更新是对 Goodhart's Law 的对策
