# Data Contamination Through the Lens of Time

> 原文链接：https://arxiv.org/abs/2310.10628
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
从时间维度追踪数据污染的演变，揭示 benchmark 数据在模型训练数据中累积渗透的动态过程。

## 核心论点
- 数据污染不是静态的一次性事件，而是随时间累积的动态过程
- 越早发布的 benchmark 被污染的风险越高
- 网络爬取的训练数据中 benchmark 内容的比例随时间递增

## 关键概念
- **Temporal Contamination**：污染随时间推移加重的现象
- **Benchmark Half-life**：benchmark 保持未污染状态的有效期
- **Web Crawl Overlap**：网络爬取数据与 benchmark 内容的重叠度
- **Contamination Detection**：检测训练数据中是否包含评估数据
- **Benchmark Freshness**：benchmark 的"新鲜度"随时间衰减

## 实践建议
- 记录 benchmark 发布时间和模型训练数据截止时间
- 优先使用较新的 benchmark 或定期更新题目
- 对老 benchmark 的结果持更审慎态度
- 在模型发布时报告已知的数据污染检测结果

## 独到观点
- "时间透镜"视角非常有启发性：benchmark 的可靠性是有"保质期"的
- 暗示整个 benchmark 生态需要持续的"新陈代谢"

## 与其他文章的关联
- 与 "Detecting Pretraining Data" 互补：一个追踪时间维度，一个提供检测工具
- 与 "Lifelong Benchmarks" 直接相关：持续更新是对抗时间污染的策略
- 与 "Don't Make Your LLM a Benchmark Cheater" 相关
- 与 "Benchmarks as Targets" 相关：时间维度的 Goodhart 效应