# Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress

> 原文链接：https://arxiv.org/abs/2402.19472
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
提出"终身 benchmark"概念，通过高效的动态更新机制使评估体系跟上模型快速迭代的步伐。

## 核心论点
- 静态 benchmark 在模型快速进步的时代迅速饱和和过时
- 需要持续演化的评估体系，但全面重新评估成本过高
- 通过高效采样和自适应方法可以在控制成本的同时保持评估时效性

## 关键概念
- **Lifelong Benchmark**：持续演化、不断更新的评估体系
- **Benchmark Saturation**：模型在静态 benchmark 上趋近满分导致区分度丧失
- **Efficient Evaluation**：用更少的样本获得可靠的评估结果
- **Adaptive Testing**：根据模型已知能力动态调整测试内容（类似计算机自适应测试 CAT）

## 实践建议
- 设计 benchmark 时预留动态更新的机制
- 使用 Item Response Theory (IRT) 等方法选择最具信息量的测试题目
- 建立版本化的 benchmark 以跟踪历史可比较性
- 平衡"新鲜度"与"可比性"的需求

## 独到观点
- 从教育测量学中的自适应测试借鉴方法论是自然的
- 评估效率问题将随模型规模和数量的增长变得更加紧迫

## 与其他文章的关联
- 与 "A Theory of Dynamic Benchmarks" 直接相关：都在探索动态评估
- 与 "Benchmarks as Targets" 相关：动态更新是对抗 Goodhart's Law 的策略
- 与 "Data Contamination Through Time" 相关：动态更新也可减少污染风险
- 与 "Trade-Offs Between Diversity and Stability" 相关：更新频率影响稳定性
