# Catch Me If You Can: LLM Decontaminator

> 原文链接：https://lmsys.org/blog/2023-11-14-llm-decontaminator/
> 作者/来源：LMSys (UC Berkeley)
> 阅读日期：2026-05-06

## 一句话总结
LMSys 揭露 benchmark contamination 问题的严重性，并提出基于 LLM 的去污染检测方法来识别训练数据中的测试集泄露。

## 核心论点
- Data contamination（训练数据包含测试集）是当前 LLM 评估的最大威胁之一
- 传统的 n-gram 匹配去污染方法不够用：paraphrase、reformatting 等变体逃过检测
- 需要语义级别的去污染检测（LLM-based decontamination）
- Contamination 可能导致 benchmark 分数严重虚高，误导模型比较

## 关键概念
- **Data contamination**：模型训练数据中包含评估 benchmark 的测试样本
- **Rephrased contamination**：通过改写、重新格式化的测试数据更难检测
- **LLM Decontaminator**：使用 LLM 判断候选训练样本是否与测试样本语义等价
- **Contamination rate**：不同模型和 benchmark 的污染程度估计
- **N-gram overlap limitation**：字面匹配无法捕捉语义级别的 contamination

## 实践建议
- 发布模型时应报告 contamination 检测结果
- 使用语义匹配而非仅字面匹配进行去污染
- 定期更新 benchmark 的问题集以降低长期 contamination 风险
- 对异常高分保持怀疑——可能是 contamination 而非真实能力
- 支持动态 benchmark（如 LiveCodeBench）减少 contamination 机会

## 独到观点
- 将 contamination 检测本身变成一个 LLM 任务——用 AI 检测 AI 的训练数据问题
- 揭示了 contamination 问题的"冰山效应"：能检测到的可能只是一小部分
- 对整个 leaderboard 生态的信任基础构成挑战

## 与其他文章的关联
- 直接支撑 "AI leaderboards are no longer useful" 的论证
- 与 HuggingFace evaluation guidebook 中的 contamination 章节关联
- 为 LiveCodeBench 等动态 benchmark 的设计动机提供了背景
- 与 MMLU-Pro 等"更难被污染"的 benchmark 设计思路互补
