# Don't Make Your LLM an Evaluation Benchmark Cheater

> 原文链接：https://arxiv.org/abs/2311.01964
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
系统性揭露 LLM 训练中 benchmark "作弊"的各种形式，提出检测和预防方法以维护评估的公正性。

## 核心论点
- 多种机制导致模型在 benchmark 上"作弊"：直接数据泄露、间接污染、针对性优化
- "作弊"不一定是故意的——数据清洗不彻底也会导致意外污染
- 需要技术手段和社区规范共同应对

## 关键概念
- **Benchmark Cheating**：通过接触评估数据而非真实学习来获得高分
- **Direct Contamination**：训练数据中直接包含 benchmark 题目和答案
- **Indirect Contamination**：训练数据包含 benchmark 的解析、讨论等相关内容
- **Instruction Tuning Leakage**：指令微调数据中混入评估数据
- **Contamination Detection**：检测和量化污染程度的方法

## 实践建议
- 训练数据清洗应包含针对已知 benchmark 的去重
- 公开报告模型的已知数据污染情况
- 使用 canary tokens 或动态题目来检测/避免泄露
- 重视间接污染——不仅要去除原题，还要去除相关讨论

## 独到观点
- 区分"有意作弊"和"无意污染"在伦理上重要但在效果上等价
- 在开放网络数据训练时代，零污染几乎不可能——问题是如何量化和应对

## 与其他文章的关联
- 与 "Detecting Pretraining Data" 互补：检测工具
- 与 "Data Contamination Through Time" 相关：时间维度的污染积累
- 与 "Benchmarks as Targets" 相关：Goodhart's Law 的极端表现
- 与 "Lifelong Benchmarks" 相关：动态更新对抗作弊