# CharXiv: Gaps in Chart Understanding

> 原文链接：https://arxiv.org/abs/2406.18521
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
专门评估 LLM 图表理解能力的 benchmark，揭示当前模型在数据可视化解读中的系统性不足。

## 核心论点
- 图表理解是科学和商业领域的基础能力，但 LLM 表现不佳
- 模型常犯读数错误、趋势判断错误、比较推理错误
- 不同类型的图表（折线、柱状、散点、饼图）难度差异大
- 图表理解需要视觉感知、数值推理和领域知识的综合

## 关键概念
- **Chart Types**：折线图、柱状图、散点图、饼图等不同可视化类型
- **Data Extraction**：从图表中准确读取数值
- **Trend Analysis**：识别数据趋势和模式
- **Comparative Reasoning**：基于图表数据进行比较和推理
- **Domain-specific Charts**：不同领域特有的图表类型和约定

## 实践建议
1. 图表理解评估应分类型和分能力层级
2. 区分"能看到图表"和"能理解图表"的能力差异
3. 数值精确度和趋势判断应分开评估
4. 实际应用中可通过工具辅助（如 chart parser）补偿模型不足

## 独到观点
CharXiv 揭示了一个反直觉的现象：模型在自然图像理解上的进步并不自动转化为图表理解的进步——后者需要更多的结构化推理能力。

## 与其他文章的关联
- 与 OmniDocBench 在文档/图表理解维度互补
- 与 MMMU-Pro 的多模态推理评估相关
- 图表数据提取能力对 RAG 系统处理 PDF 报告很重要