# Inherent Trade-Offs between Diversity and Stability in Multi-Task Benchmarks

> 原文链接：https://arxiv.org/abs/2405.01719
> 作者/来源：Guanhua Zhang, Moritz Hardt / ICML 2024
> 阅读日期：2026-05-06

## 一句话总结
从社会选择理论（social choice theory）视角证明多任务 benchmark 中多样性与稳定性之间存在固有的不可调和的权衡。

## 核心论点
- 多任务 benchmark 本质上是一种"投票系统"：每个任务为模型投票，最终聚合出排名
- Arrow 不可能定理适用于 ordinal benchmark：不存在同时满足所有理想性质的聚合规则
- 实证验证：18 个现有 benchmark 的排名在无关变化下高度不稳定

## 关键概念
- **Social Choice Theory**：将 benchmark 聚合类比为选举制度
- **Cardinal vs. Ordinal Systems**：基数系统（聚合数值分数）vs. 序数系统（聚合任务排名）
- **Diversity**：benchmark 覆盖任务多样性的程度
- **Stability/Sensitivity**：排名对微小无关变化的抵抗力
- **Arrow's Impossibility Theorem**：不存在完美的排名聚合方法（理论下界）

## 实践建议
- 接受多样性-稳定性权衡是固有的，而非可以被"修复"的
- 报告排名时应同时报告敏感性分析
- 在需要稳定排名的场景下适度牺牲多样性
- 在需要全面评估的场景下接受排名的不确定性

## 独到观点
- 将计算社会选择理论引入 ML 评估是一个优雅的理论贡献
- 这个"不可能性结果"意味着追求"完美 benchmark"本身就是一个误导性目标
- 与 Arrow 定理类似，这是一个关于基本限制的悲观结论

## 与其他文章的关联
- 与 "The Leaderboard Illusion" 提供理论基础：解释了排行榜为何不可靠
- 与 MixEval 形成张力：MixEval 试图通过混合获得更好结果，但本文指出混合有固有极限
- 与 "Elo Uncovered" 相关：Elo 也是一种聚合方式，受类似限制
- 与 "A Theory of Dynamic Benchmarks" 相关：动态化是否能缓解这一权衡？
