# GPQA: Graduate-Level Q&A Benchmark

> 原文链接：https://arxiv.org/abs/2311.12022
> 仓库地址：https://github.com/idavidrein/gpqa
> 作者/来源：David Rein et al. (2023)
> 阅读日期：2026-05-06

## 一句话总结
研究生级别的科学问答 benchmark，由领域专家出题并验证非专家难以作答，用于测量模型的专业知识深度。

## 核心论点
- 需要能区分"通用智能"和"深度专业知识"的评估
- 题目设计确保：领域专家能答对，非专家（含其他领域专家）答不对
- 这种"专家-非专家差异"保证了题目测试的是真正的专业理解
- 当前最强模型在 GPQA 上仍与人类专家有显著差距

## 关键概念
- **Expert Validation**：题目经专家验证确认难度和正确性
- **Non-expert Difficulty**：非专家（其他领域博士）正确率作为 baseline
- **Diamond Subset**：最高质量子集，双重专家验证
- **Domain Coverage**：物理、化学、生物等研究生级别知识
- **Expertise Gap**：模型与人类专家之间的能力差距量化

## 实践建议
1. GPQA 适合评估模型在专业领域的深度，不适合通用评估
2. Diamond subset 质量最高，优先使用
3. 结合 MMLU 使用：MMLU 测广度，GPQA 测深度
4. 关注模型在不同学科的表现差异

## 独到观点
"非专家无法答对"的设计约束很巧妙——它确保 benchmark 测试的是不可简化的专业知识，而非可通过一般推理获得的答案。

## 与其他文章的关联
- 与 MMLU 形成广度-深度互补
- 难度介于 MMLU-Pro 和 Humanity's Last Exam 之间
- 为 Meta Llama 3 和其他模型的评估体系提供专业知识维度
- 与 BIG-Bench 的挑战性任务在难度定位上相似
