# MMLU-Pro+: Higher-Order Reasoning

> 原文链接：https://arxiv.org/abs/2409.02257
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
MMLU-Pro 的进一步增强版，加入需要更高阶推理能力的题目，进一步拉开前沿模型的区分度。

## 核心论点
- MMLU-Pro 虽然比原版更难，但前沿模型仍在快速接近饱和
- 需要加入需要多步推理、跨学科整合的更高难度题目
- 评估"理解"应超越知识回忆，测试应用和分析能力
- Bloom 分类学的高层级（分析、综合、评价）需要更多覆盖

## 关键概念
- **Higher-Order Reasoning**：超越记忆和理解的分析、综合、评价能力
- **Multi-step Problems**：需要多步推理链才能解答的问题
- **Cross-domain Integration**：需要整合多学科知识的题目
- **Reasoning Chain**：正确答案需要完整的推理过程
- **Anti-shortcut Design**：防止模型通过浅层模式匹配得分

## 实践建议
1. 用 MMLU-Pro+ 评估前沿推理模型（如 o1 系列）
2. 关注模型在不同推理深度题目上的表现差异
3. 与原版 MMLU 对比可量化"推理能力 vs 知识记忆"的差距
4. 作为推理能力改进的追踪指标

## 独到观点
从 MMLU → MMLU-Pro → MMLU-Pro+ 的演进本身讲述了一个故事：评估者和模型之间的"军备竞赛"在加速。

## 与其他文章的关联
- 是 MMLU 家族的最新成员
- 与 GPQA 在"测试深度理解"上目标一致
- 推理评估与 ARC-AGI-2 互补：知识推理 vs 抽象推理
- 支持 o1 evaluation 论文中对推理能力的专项分析
