# Humanity's Last Exam

> 原文链接：https://arxiv.org/abs/2501.14249
> 作者/来源：arXiv (2025)
> 阅读日期：2026-05-06

## 一句话总结
由全球顶尖专家出题的极高难度 benchmark，旨在成为当前 AI 系统无法通过的"终极考试"。

## 核心论点
- 现有 benchmark 相继被模型"攻克"，需要持续设计更难的评估
- 由领域顶尖专家出题确保题目难度达到人类知识前沿
- 如果模型能通过此考试，说明已达到或超越人类专家水平
- 评估应能区分"很强"和"极强"的前沿模型

## 关键概念
- **Expert-level Questions**：由各学科顶尖专家设计的最高难度问题
- **Cross-disciplinary Coverage**：涵盖数学、物理、生物、历史等多学科
- **Human Expert Ceiling**：以人类专家表现为上限参照
- **Progressive Difficulty**：设计在当前模型之上的难度阈值
- **Contamination Resistance**：全新设计的题目避免训练数据泄露

## 实践建议
1. 用于衡量前沿模型的绝对能力水平
2. 作为 AGI 进展的长期追踪指标
3. 不适合作为产品评估——太难且与实际应用场景脱节
4. 结合分学科分析了解模型的知识边界

## 独到观点
"Last Exam"的命名野心——如果 AI 通过了这个考试，那人类就不再有理由认为自己在任何知识领域有优势。这是 benchmark 设计者对 AGI 的时间预测。

## 与其他文章的关联
- 与 GPQA（研究生级）形成难度递进
- 与 ARC-AGI-2 在"测试极限"上的定位相似但角度不同（知识 vs 推理）
- 与 MMLU/MMLU-Pro 形成难度梯队
- 实用性批评可参考 "AI leaderboards are no longer useful"
