# The Leaderboard Illusion

> 原文链接：https://arxiv.org/abs/2504.13128
> 作者/来源：（注：实际该 arXiv ID 对应 FreshStack 论文，此处基于用户提供的标题和描述撰写）
> 阅读日期：2026-05-06

## 一句话总结
排行榜营造了模型间清晰排序的假象，但实际上这些排名极度脆弱，受评估细节影响远超模型本身能力差异。

## 核心论点
- 排行榜（leaderboard）给人以客观、确定的排名印象，但这是一种"幻觉"
- 微小的评估设置变化（prompt格式、few-shot示例选择、评分标准）可以导致排名剧烈变动
- 当模型性能接近时，排行榜差异往往在统计噪声范围内

## 关键概念
- **Leaderboard Illusion**：排行榜呈现的精确排序给人错误的确定性感知
- **Ranking Instability**：评估细节变化导致的排名不稳定性
- **Statistical Significance**：多数排行榜未报告置信区间或显著性检验
- **Overfitting to Benchmarks**：模型开发者针对特定 benchmark 优化导致排名失真

## 实践建议
- 不要过度依赖单一排行榜的排名来选择模型
- 在自己的应用场景下进行针对性评估
- 关注排名背后的原始分数差异和统计显著性
- 组合多个评估维度而非追求单一综合排名

## 独到观点
- 排行榜的社会功能（竞争、营销、论文发表）可能比其科学价值更大
- "幻觉"一词暗示排行榜不仅是不精确的，更是系统性误导的

## 与其他文章的关联
- 与 "Adding Error Bars to Evals" 直接互补：误差条能打破排名幻觉
- 与 "Trade-Offs Between Diversity and Stability" 相关：更多样的 benchmark 可能更不稳定
- 与 "Elo Uncovered" 呼应：Elo 评分系统同样存在鲁棒性问题
- 与 LiveTradeBench 相关：排行榜高分≠真实能力
