# MMLU Pro: Massive Multitask Understanding

> 原文链接：https://arxiv.org/abs/2406.01574
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
MMLU 的显著升级版：将选项从 4 增加到 10、增加需要推理的题目、过滤有争议的题目，提供更可靠的能力区分。

## 核心论点
- 原始 MMLU 的 4 选项格式使随机 baseline 过高（25%）
- 许多 MMLU 题目仅需知识回忆而非理解
- 10 选项格式将随机 baseline 降至 10%，增加区分度
- 加入需要推理的题目测试更深层的理解

## 关键概念
- **10-choice Format**：从 4 选项增加到 10 选项
- **Reasoning Requirements**：增加需要推理步骤的题目比例
- **Quality Filtering**：去除有争议或标注错误的题目
- **Reduced Guessing**：更低的随机基线提高评估有效性
- **Chain-of-Thought Sensitivity**：CoT 对 MMLU-Pro 的提升比原版更显著

## 实践建议
1. 新评估应优先使用 MMLU-Pro 而非原版 MMLU
2. 注意 MMLU-Pro 分数不可与原版直接比较
3. CoT prompting 在 MMLU-Pro 上更重要——应标准化使用
4. 10 选项格式对 answer extraction 提出更高要求

## 独到观点
MMLU-Pro 证明了 benchmark 改进不一定需要全新设计——系统性修复已知缺陷即可显著提升评估质量。10 选项的简单改变就大幅改善了区分度。

## 与其他文章的关联
- 是 MMLU 的直接改进，MMLU-Pro+ 的基础
- 与 MMMU-Pro 共享"Pro"升级方法论（扩展选项、过滤噪声）
- CoT sensitivity 呼应了 o1 等推理模型的评估需求
- 评估配置敏感性与 ACL robustness 论文发现一致
