# A Survey on Evaluation of Multimodal Large Language Models

> 原文链接：https://arxiv.org/abs/2408.15769
> 作者/来源：arXiv preprint (2024)
> 阅读日期：2026-05-06

## 一句话总结
专注于多模态大语言模型（MLLM）评估方法的综述，涵盖视觉、音频等多种模态的评估范式。

## 核心论点
- MLLM 评估需要同时考量单模态能力和跨模态整合能力
- 现有评估方法过于依赖选择题格式，无法反映开放式生成的质量
- Multimodal hallucination 是 MLLM 特有的严重问题，需要专门的检测机制
- 评估应考虑模态之间的交互效应，而非简单地将单模态 benchmark 拼凑在一起

## 关键概念
- **Perception evaluation**：对图像/视频/音频内容的基础感知能力测试
- **Cognition evaluation**：需要推理和理解的高级认知任务
- **Multimodal hallucination**：模型"看到"图像中不存在的物体或属性
- **Cross-modal alignment**：不同模态信息之间的对齐质量
- **Instruction following in multimodal context**：在多模态输入下遵循指令的能力
- **Benchmark categories**：general-purpose（MMBench, SEED-Bench）vs domain-specific（medical, scientific）

## 实践建议
- 评估 MLLM 时务必包含 hallucination detection 测试
- 使用"需要真正理解图像才能回答"的问题，避免纯文本先验知识即可作答的题目
- 包含视频理解任务，因为时序推理是区分模型能力的重要维度
- 测试模型对不同分辨率和图像质量的鲁棒性

## 独到观点
- 对比分析了 closed-ended（选择题）vs open-ended（开放生成）评估的优劣
- 强调 video understanding 评估的特殊挑战：长视频、时序推理、动作识别
- 指出当前 MLLM benchmark 的"图像+问题"格式过于简单，真实场景远更复杂

## 与其他文章的关联
- 与 "Benchmark Evaluations of Large Vision Language Models" 高度互补，本文侧重评估方法论
- 与 ViDoRe Benchmark V2 在文档视觉理解方面相关
- 评估工具方面可参考 lm-evaluation-harness 的多模态扩展
