# OmniDocBench: PDF Document Parsing

> 原文链接：https://arxiv.org/abs/2412.07626v1
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
综合性 PDF 文档解析 benchmark，评估模型对各类文档元素（表格、图表、公式、布局）的理解和提取能力。

## 核心论点
- PDF 文档解析是 LLM 实际应用中的高频需求但评估不足
- 文档理解涉及多种元素类型，需要综合性评估
- 当前模型在复杂布局和非文本元素上仍有显著不足
- 端到端文档理解比单一元素提取更具挑战性

## 关键概念
- **Document Elements**：表格、图表、公式、标题、列表等结构化元素
- **Layout Understanding**：理解文档的空间布局和阅读顺序
- **Table Extraction**：准确提取和结构化表格内容
- **Formula Recognition**：数学公式的正确 OCR 和解析
- **Multi-page Reasoning**：跨页面的信息关联和推理

## 实践建议
1. PDF 处理流水线应针对各元素类型分别评估
2. 复杂布局（多栏、混合元素）是重点测试场景
3. 评估应包含保真度（是否丢失信息）和结构化程度
4. 真实世界文档的多样性远超合成数据

## 独到观点
文档解析是 LLM 最接近"日常办公"的应用场景之一，但评估却长期被忽视。OmniDocBench 填补了这一重要空白。

## 与其他文章的关联
- 与 CharXiv 在图表理解维度互补
- 文档理解能力与 RAG 系统的输入质量直接相关
- 多模态评估趋势与 MMMU/Video-MMMU 一致
