# Synthetic Data for Language Models: A Survey

> 原文链接：https://arxiv.org/abs/2404.07503
> 作者/来源：（综述论文）
> 阅读日期：2026-05-06

## 一句话总结
系统综述合成数据在语言模型训练和评估中的角色，探讨其质量保证、多样性问题和对 benchmark 有效性的影响。

## 核心论点
- 合成数据已成为 LLM 训练和评估的重要组成部分
- 合成数据的质量、多样性和分布特征直接影响模型能力和评估有效性
- 需要系统性方法来生成、筛选和验证合成数据

## 关键概念
- **Synthetic Data Generation**：使用 LLM 生成训练/评估数据
- **Data Quality Assurance**：合成数据的质量控制方法
- **Diversity vs. Homogeneity**：合成数据的多样性不足问题（model collapse）
- **Distribution Shift**：合成数据与真实数据的分布差异
- **Self-Improvement**：模型用自己生成的数据训练自己的循环

## 实践建议
- 合成评估数据需要与真实数据的 validity 检验对齐
- 监控合成数据的多样性以避免评估盲区
- 区分"合成数据用于训练"和"合成数据用于评估"的不同要求
- 评估 benchmark 使用合成数据时需额外验证 construct validity

## 独到观点
- 合成数据的广泛使用可能导致 benchmark 生态系统的"近亲繁殖"
- 当训练数据和评估数据都由 LLM 生成时，存在系统性自指问题

## 与其他文章的关联
- 与 "Data Contamination Through Time" 相关：合成数据可能加剧污染问题
- 与 "Detecting Pretraining Data" 相关：需要检测合成数据的来源
- 与 "Measuring What Matters" 相关：合成数据的 construct validity 是核心问题