# A Theory of Dynamic Benchmarks

> 原文链接：https://arxiv.org/abs/2210.03165
> 作者/来源：ICLR 2023
> 阅读日期：2026-05-06

## 一句话总结
为动态 benchmark（随时间更新的评估）提供理论框架，分析其在对抗数据饱和和污染方面的优势与挑战。

## 核心论点
- 静态 benchmark 注定会因饱和、污染和 Goodhart 效应而失效
- 动态 benchmark 通过持续更新保持评估有效性
- 需要理论框架来指导动态 benchmark 的设计（更新频率、题目生成、可比性维持）

## 关键概念
- **Dynamic Benchmark**：内容持续更新的评估体系
- **Benchmark Decay**：静态 benchmark 有效性随时间衰减
- **Temporal Comparability**：如何在更新后维持历史分数的可比性
- **Item Generation**：新题目的自动/半自动生成方法
- **Difficulty Calibration**：确保新题目与旧题目难度可比

## 实践建议
- 设计 benchmark 时预先规划更新机制
- 使用锚定题目（anchor items）维持版本间可比性
- 自动生成题目需要质量控制流程
- 更新频率应与模型迭代速度和污染速度匹配

## 独到观点
- 将 benchmark 从"产品"转变为"服务"的思维转换
- 理论视角揭示了动态化的固有限制（不是万能药）

## 与其他文章的关联
- 与 "Lifelong Benchmarks" 直接相关：理论基础
- 与 "Data Contamination Through Time" 相关：动态化对抗污染
- 与 "Benchmarks as Targets" 相关：动态化降低 gaming 收益
- 与 "Trade-Offs Between Diversity and Stability" 相关：更新引入额外不稳定性
