# Detecting Pretraining Data from Large Language Models

> 原文链接：https://arxiv.org/abs/2310.16789
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
提出检测特定文本是否属于 LLM 预训练数据的方法，为数据污染（data contamination）检测提供工具。

## 核心论点
- 如果 benchmark 数据在预训练集中出现，评估结果将失去意义
- 需要可靠的方法来检测特定文本是否被模型"见过"
- 基于模型对文本的困惑度（perplexity）和成员推断（membership inference）可以进行检测

## 关键概念
- **Membership Inference Attack (MIA)**：判断某数据点是否属于训练集
- **Data Contamination**：benchmark 数据泄露到训练集中
- **Perplexity-based Detection**：利用模型对已见文本的低困惑度进行检测
- **Min-K% Prob**：一种基于最低概率 token 的高效检测方法
- **Canary Insertion**：在数据中插入标记以验证泄露

## 实践建议
- 发布 benchmark 前检测主流模型是否已接触过这些数据
- 使用 Min-K% Prob 等方法作为污染检测的标准工具
- 设计 benchmark 时考虑使用全新生成的题目以降低污染风险
- 模型开发者应公开训练数据来源以支持污染审计

## 独到观点
- 将安全领域的 membership inference 方法迁移到评估有效性问题上
- 检测方法本身的 false positive/negative rate 决定了其实用性

## 与其他文章的关联
- 与 "Data Contamination Through Time" 直接相关：一个检测，一个追踪
- 与 "Don't Make Your LLM a Benchmark Cheater" 相关
- 与 "Benchmarks as Targets" 相关：污染是 benchmark 失效的机制之一
- 与 "Lifelong Benchmarks" 相关：新数据是避免污染的方法
