# Video-MMMU: Professional Videos Knowledge

> 原文链接：https://arxiv.org/abs/2501.13826
> 作者/来源：arXiv (2025)
> 阅读日期：2026-05-06

## 一句话总结
将 MMMU 多模态理解 benchmark 扩展到视频领域，评估模型从专业教学视频中提取和理解知识的能力。

## 核心论点
- 视频理解是多模态 AI 的下一个重要前沿
- 专业视频（如医学讲座、工程演示）包含图像+文字+时序的复合信息
- 模型需要整合视频中多帧信息才能正确回答问题
- 当前模型在视频理解上远落后于静态图像理解

## 关键概念
- **Video Understanding**：从视频流中提取信息并推理的能力
- **Temporal Reasoning**：理解视频中时间顺序和因果关系
- **Professional Domain**：涵盖医学、工程、科学等专业领域视频
- **Multi-frame Integration**：需要综合多帧信息才能回答的问题
- **Knowledge Extraction**：从视频中获取知识而非仅描述内容

## 实践建议
1. 视频理解评估需要设计需要跨帧推理的问题
2. 区分"视频描述"和"视频理解"——后者需要深层推理
3. 专业领域视频评估需要领域专家参与问题设计
4. 当前技术适合辅助而非替代视频中的专业内容理解

## 独到观点
从图像到视频的评估扩展不仅是数据维度的增加，更是认知复杂度的质变——需要模型具备时间推理能力。

## 与其他文章的关联
- 是 MMMU/MMMU-Pro 的视频扩展版
- 与 OmniDocBench 在多模态文档理解上互补
- 视频理解可视为长上下文能力的一种特殊表现形式