# What Will it Take to Fix Benchmarking in Natural Language Understanding?

> 原文链接：https://arxiv.org/abs/2104.02145
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
诊断 NLU benchmark 的系统性问题并提出修复方案，是 benchmark 改革运动的早期重要文献。

## 核心论点
- NLU benchmark 面临多重危机：annotation artifacts、data leakage、construct validity 不足
- 问题不仅是技术性的，更是社区激励结构的产物
- 修复需要技术改进和社区规范变革的双重努力

## 关键概念
- **Annotation Artifacts**：标注过程引入的非预期模式（spurious correlations）
- **Adversarial Evaluation**：通过对抗样本检测模型的真实能力
- **Dynamic Evaluation**：持续更新的评估以对抗过拟合
- **Incentive Structures**：学术发表压力如何扭曲评估实践
- **Task Design**：benchmark 任务设计的原则和常见缺陷

## 实践建议
- 使用对抗样本测试模型是否依赖了 spurious correlations
- benchmark 设计应纳入 annotation artifact 检测
- 社区应奖励稳健的评估而非仅追求 SOTA 数字
- 采用多轮迭代的 benchmark 设计流程

## 独到观点
- 将 benchmark 问题上升到社区激励结构层面，不仅是技术讨论
- 发表于 LLM 浪潮之前（2021），但诊断的问题在 LLM 时代更加严重

## 与其他文章的关联
- 与 "Benchmarks as Targets" 在精神上一脉相承
- 与 "Measuring What Matters" 相关：construct validity 是核心修复方向
- 与 "Are Emergent Abilities a Mirage?" 相关：指标选择问题
- 与 "Toward Evaluation Science" 相关：更早期的评估改革呼声