# Introducing SimpleQA

> 原文链接：https://openai.com/index/introducing-simpleqa/
> 作者/来源：OpenAI
> 阅读日期：2026-05-06

## 一句话总结
OpenAI 发布 SimpleQA——一个专注于测量 LLM 事实性（factuality）的简洁 benchmark，强调问题有明确正确答案且不随时间变化。

## 核心论点
- 现有 benchmark 对事实性的测量不够纯粹，混杂了推理等其他能力
- 好的事实性 benchmark 需要：答案明确、时间稳定、易于验证
- SimpleQA 专注于"模型是否知道正确事实"这一最基础的问题
- 模型应能区分"知道"和"不知道"——calibration 同样重要

## 关键概念
- **Factuality Benchmark**：专注于事实正确性而非推理能力
- **Unambiguous Answers**：每个问题有唯一明确正确答案
- **Temporal Stability**：答案不随时间变化（避免"现任总统"类问题）
- **Calibration**：模型对自身确信度的准确估计
- **Hallucination Detection**：通过简单事实题检测模型编造信息的倾向

## 实践建议
1. 事实性评估应与推理评估分开进行
2. 使用时间稳定的问题避免 benchmark 过期
3. 关注模型的 calibration（说"不知道"的能力）
4. SimpleQA 可作为 hallucination 倾向的快速检测
5. 结合 grounded generation 方法改善事实性

## 独到观点
SimpleQA 的"简洁"本身就是设计哲学——在评估日益复杂化的趋势中，回归最基本的问题反而能提供最清晰的信号。这呼应了工程中"simple is better"的原则。

## 与其他文章的关联
- 与 SimpleQA Verified (arxiv 2509.07968) 是同一系列的改进版
- 与 DeepMind FACTS Grounding benchmark 在事实性维度互补
- Hallucination 问题与 TrustLLM 的 trustworthiness 评估相关
- 为 Humanity's Last Exam 等高难度 benchmark 提供了对照——简单但有效
