# MMLU: Measuring Massive Multitask Language Understanding

> 原文链接：https://arxiv.org/abs/2009.03300
> 作者/来源：Dan Hendrycks et al. (2020)
> 阅读日期：2026-05-06

## 一句话总结
最具影响力的 LLM 知识和理解能力 benchmark，覆盖 57 个学科的 15,000+ 多选题，成为模型比较的事实标准。

## 核心论点
- 语言模型的能力可通过多学科多选题形式系统测量
- 57 个学科的覆盖提供了知识广度的全景视图
- 从小学到研究生的难度梯度反映了不同层次的理解
- 标准化格式使跨模型比较成为可能

## 关键概念
- **Multitask**：57 个学科领域的并行评估
- **4-choice Multiple Choice**：标准化的多选题格式
- **Few-shot Evaluation**：通过少量示例引导模型理解题目格式
- **Subject Categories**：STEM、Humanities、Social Sciences、Other
- **Difficulty Levels**：从基础常识到专业知识的难度分布

## 实践建议
1. MMLU 作为基础能力快照有价值，但不应作为唯一评估
2. 分学科分析比整体分数更有信息量
3. 注意 MMLU 已接近饱和——前沿模型分数差异很小
4. 配合更新的 benchmark（MMLU-Pro）使用

## 独到观点
MMLU 的最大贡献不是测试本身，而是建立了"多学科综合评估"的范式——它证明了单一 benchmark 可以提供有意义的跨模型比较。

## 与其他文章的关联
- MMLU-Pro 和 MMLU-Pro+ 是其直接改进版
- 几乎所有模型评估报告（如 Llama 3）都包含 MMLU 分数
- "AI leaderboards are no longer useful" 的批评部分针对 MMLU 饱和问题
- 被 LMSys decontaminator 重点关注的污染目标
