# YourBench

> 仓库地址：https://github.com/huggingface/yourbench
> 作者/组织：Hugging Face
> 成熟度：experimental
> 分析日期：2026-05-06

## 一句话总结
Hugging Face 推出的自定义 benchmark 生成框架，允许用户基于自己的文档/数据自动生成评测数据集，解决"公开 benchmark 被训练数据污染"的问题。

## 项目定位与架构
YourBench 定位为"为你的特定场景定制 benchmark"的工具。其核心思路是：与其使用可能已被污染的公开测试集，不如基于用户自己的领域文档自动生成问答对。架构流程：(1) **文档摄入**——用户上传领域文档（PDF、网页等）；(2) **问题生成**——使用 LLM 基于文档生成多样化问题（事实问答、推理题、摘要等）；(3) **答案生成**——生成参考答案；(4) **质量过滤**——自动筛选高质量问答对；(5) **Benchmark 输出**——生成标准格式的评测数据集。

## 关键技术特性
- **文档驱动的 Benchmark 生成**：从用户文档自动生成评测数据
- **多样化题型**：支持生成事实问答、多步推理、摘要、对比等不同类型问题
- **Data Contamination 免疫**：生成的测试数据不在公开训练集中
- **难度控制**：可控制生成问题的复杂度和所需推理步数
- **Hugging Face Hub 集成**：生成的 benchmark 可直接上传分享

## 设计亮点与创新
1. **逆转评测逻辑**：从"模型适应 benchmark"转为"benchmark 适应场景"
2. **解决 contamination 问题**：私有文档生成的数据天然避免训练数据泄露
3. **领域适应性**：让非 ML 专家也能为自己的领域创建评测
4. **与 Open LLM Leaderboard 互补**：通用 benchmark 看整体能力，YourBench 看特定场景

## 局限性与风险
- 生成质量依赖于用于生成问题的 LLM 本身的能力
- 可能存在"自我评测偏见"——用同类模型生成和评测
- 对文档质量要求较高，低质量输入产出低质量 benchmark
- 尚处于早期阶段，社区使用经验有限

## 与生态系统的关联
- 体现了 Hugging Face 推动评测民主化的战略方向
- 与 lm-evaluation-harness 互补——后者运行 benchmark，YourBench 生成 benchmark
- 响应了社区对 benchmark contamination 的广泛担忧
- 类似理念的项目包括 DynaBoard、CheckList 等动态评测方法