# AI Leaderboards Are No Longer Useful

> 原文链接：https://aisnakeoil.com/p/ai-leaderboards-are-no-longer-useful
> 作者/来源：AI Snake Oil (Arvind Narayanan & Sayash Kapoor)
> 阅读日期：2026-05-06

## 一句话总结
尖锐批评当前 AI leaderboard 生态：benchmark contamination、metric gaming 和评估配置差异使排名失去可信度和实用价值。

## 核心论点
- Leaderboard 曾经有用，但随着 LLM 生态演变已失去原有价值
- Data contamination 使分数不再反映真实能力
- 模型开发者针对 benchmark 优化（teaching to the test）而非真实能力
- Leaderboard 排名给非专业人士造成了虚假的确定感
- 需要替代方案：task-specific evaluation、user studies、domain expert assessment

## 关键概念
- **Goodhart's Law in AI**："当指标变成目标时，它就不再是好的指标"——leaderboard 的根本困境
- **Contamination arms race**：模型训练数据越来越可能包含 benchmark 测试集
- **Metric gaming**：通过格式优化、评估配置选择等方式提高排名而非真实能力
- **False precision**：0.1% 的分数差异被当作有意义的区别，实际可能只是噪声
- **Benchmark saturation**：前沿模型在多个 benchmark 上接近满分，区分度消失

## 实践建议
- 不要仅凭 leaderboard 排名做模型选择决策
- 在自己的实际任务上测试模型，而非依赖通用 benchmark
- 对 leaderboard 分数保持怀疑态度，特别是差距小的情况
- 关注 benchmark 的新鲜度——长期存在的 benchmark 更可能被 contaminate
- 支持动态、不断更新的评估方法

## 独到观点
- Leaderboard 的社会功能（市场营销、融资叙事）已超越其技术功能
- 作者将问题追溯到激励结构：模型厂商有动机"刷分"但缺乏动机做诚实评估
- 提出评估应该"去中心化"——没有单一排名能服务所有用户

## 与其他文章的关联
- 与 Microsoft "Robustness of LLM Evaluation" 论文提供了学术实证支持
- 与 LMSys "Catch me if you can" 的 contamination 研究直接关联
- 与 HuggingFace Clémentine Fourrier 的 evaluation sensitivity 讨论互补
- 为 MMLU-Pro、LiveCodeBench 等新一代 benchmark 的设计动机提供背景
- Zvi "On GPT-4.5" 中的 vibes vs benchmark 讨论呼应了本文核心批评
