# MMMU-Pro: Higher Robustness Benchmark

> 原文链接：https://arxiv.org/abs/2409.02813
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
MMMU 的加固版本，通过增加干扰选项、过滤可不看图作答的题目等方式提高评估的鲁棒性和有效性。

## 核心论点
- 原始 MMMU 中部分题目可不依赖图像信息作答，测量的不是多模态能力
- 增加选项数量（从4到10）降低猜测成功概率
- 过滤掉"text-only solvable"的题目确保真正测试视觉理解
- 更鲁棒的评估设计减少偶然成功对分数的影响

## 关键概念
- **Vision-dependent Questions**：必须看图才能回答的题目筛选
- **Extended Options**：增加选项数减少随机猜对概率
- **Shortcut Detection**：识别模型绕过图像理解的捷径
- **Robustness Enhancement**：系统性提高 benchmark 的抗干扰能力
- **Genuine Multimodal Reasoning**：确保评估的是真正的多模态推理

## 实践建议
1. 多模态评估应验证题目确实需要视觉信息
2. 增加选项数是降低 random baseline 的简单有效方法
3. Shortcut analysis 应成为 benchmark 设计的标准步骤
4. 使用 text-only baseline 检测评估中的捷径

## 独到观点
"Pro"系列 benchmark 代表了评估领域的成熟化趋势——不是简单增加难度，而是系统性修复已知的评估缺陷。

## 与其他文章的关联
- 是 MMMU 的直接改进版
- 方法论可推广到其他 benchmark 的鲁棒性增强
- 与 MMLU-Pro/MMLU-Pro+ 的改进思路一致
- 鲁棒性讨论与 ACL 论文 "Robustness of LLM evaluation" 相关
