# FACTS Grounding: A New Benchmark

> 原文链接：https://deepmind.google/blog/facts-grounding-a-new-benchmark
> 作者/来源：Google DeepMind
> 阅读日期：2026-05-06

## 一句话总结
DeepMind 的事实基础性 benchmark，评估模型生成内容是否可追溯到可靠来源且不含虚构信息。

## 核心论点
- "Grounding"是 factuality 的更高标准：不仅要正确，还要可溯源
- 模型需要区分已知事实和推测，并在回答中明确标注
- 当前 LLM 在长文本生成中的 grounding 能力显著退化
- 评估 grounding 需要同时检查正确性和来源对应关系

## 关键概念
- **Grounding**：生成内容可追溯到具体来源文档的属性
- **Attribution**：正确归因——每个声明都能找到支撑证据
- **Hallucination Detection**：识别无来源支撑的虚构内容
- **Faithfulness**：生成内容忠实于提供的参考材料
- **Long-form Grounding**：在长文本生成中保持 grounding 质量

## 实践建议
1. RAG 系统应评估生成内容与检索结果的对应关系
2. 长文本生成尤其需要 grounding 检查——退化风险更高
3. 评估应区分"正确但无来源"和"有来源且正确"
4. 将 grounding 评估集成到 RAG pipeline 的质量监控中

## 独到观点
FACTS 将 grounding 从二元（对/错）提升为多层级评估——不仅要事实正确，还要来源可靠、归因准确。这更接近学术写作的标准。

## 与其他文章的关联
- 与 SimpleQA 在事实性评估上互补：SimpleQA 测知识，FACTS 测溯源
- 直接相关于 RAG 系统评估和 Humanloop 的优化建议
- 与 TrustLLM 的 trustworthiness 中 reliability 维度相关
