# ViDoRe Benchmark V2

> 原文链接：https://huggingface.co/blog/manu/vidore-v2
> 作者/来源：Hugging Face (manu)
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
ViDoRe V2 是视觉文档检索（Visual Document Retrieval）的升级版 benchmark，评估模型直接从文档图像中检索信息的能力。

## 项目定位与架构
- 专注于视觉文档检索（Visual Document Retrieval）任务
- 评估模型能否不依赖 OCR 而直接从文档视觉表示中检索相关信息
- V2 相比 V1 扩展了数据规模、文档类型多样性和评估维度
- 与 ColPali 等视觉检索模型的发展密切配合

## 关键技术特性
- **Visual-first retrieval**：不依赖文本提取，直接在文档图像上进行检索
- **多样文档类型**：学术论文、报表、幻灯片、表格、图表等
- **多语言覆盖**：包含多种语言的文档
- **End-to-end evaluation**：从 query 到 document 的完整检索流程评估
- **Metric**：使用 NDCG@k 等标准 IR metric

## 设计亮点与创新
- 挑战了传统 "OCR → text retrieval" 的 pipeline，推动视觉原生检索
- 评估了一个新兴且实用的能力维度——很多文档信息（表格、图表）难以用纯文本表达
- V2 的改进方向反映了社区对 V1 不足的反馈

## 局限性与风险
- 任务相对小众，参与评估的模型数量有限
- 视觉检索模型的计算成本远高于纯文本检索
- 评估可能偏向特定的文档布局风格

## 与生态系统的关联
- 与 LVLM 评估综述中的文档理解维度直接相关
- 与 ColPali、ColQwen 等视觉检索模型的发展同步
- 补充了传统 NLP retrieval benchmark（如 BEIR）在视觉文档上的空白