# SimpleQA Verified: Reliable Factuality Benchmark

> 原文链接：https://arxiv.org/abs/2509.07968
> 作者/来源：arXiv (2025)
> 阅读日期：2026-05-06

## 一句话总结
对 OpenAI SimpleQA 的验证和改进版本，通过更严格的数据质量控制确保事实性 benchmark 本身的可靠性。

## 核心论点
- Benchmark 本身的数据质量直接影响评估结果的可信度
- 原始 SimpleQA 中存在标注错误和歧义问题需要修复
- "Verified"版本通过多轮人工审核提高了数据可靠性
- 事实性评估的基础是评估数据本身的事实正确性

## 关键概念
- **Data Quality Verification**：对 benchmark 数据进行多轮审核和验证
- **Annotation Errors**：原始数据集中标注错误的系统性识别
- **Ambiguity Resolution**：消除问题或答案中的歧义
- **Reliability Metrics**：benchmark 本身可靠性的量化度量
- **Inter-annotator Agreement**：多标注者一致性作为数据质量指标

## 实践建议
1. 使用 benchmark 前检查其数据质量和已知问题
2. 定期验证和更新评估数据集
3. 报告 benchmark 本身的置信度和已知局限
4. 优先使用经过社区验证的 benchmark 版本

## 独到观点
"验证评估工具本身"的元评估思维很重要——如果 benchmark 有 5% 标注错误，那所有基于它的模型比较都存在同等的不确定性。

## 与其他文章的关联
- 是 OpenAI SimpleQA 的直接改进
- 与 SWE-Bench Verified 的"验证"思路一致
- 支撑了 ACL robustness 论文关于评估可靠性的论点
