# FACTS Grounding Leaderboard

> 原文链接：https://arxiv.org/abs/2501.03200
> 作者/来源：Google DeepMind
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
DeepMind 推出的事实性基础（Factual Grounding）排行榜，专门评估 LLM 生成内容的事实准确性和引用可靠性。

## 项目定位与架构
- 聚焦于 LLM 最关键的可靠性维度：事实性（factuality）和可溯源性（grounding）
- 评估模型是否能基于给定来源生成准确信息，避免 hallucination
- 提供标准化的评估流程和公开排行榜
- 针对的是 grounded generation 场景（如 RAG）

## 关键技术特性
- **Grounded generation task**：给定源文档，生成基于该文档的准确回答
- **Fine-grained factuality check**：逐句检查生成内容是否有源文档支持
- **Citation accuracy**：评估引用的准确性和完整性
- **Multi-document grounding**：多文档场景下的事实一致性
- **Automated + human evaluation**：结合自动化指标和人类验证

## 设计亮点与创新
- 直击 LLM 最受诟病的 hallucination 问题
- 细粒度的 factuality 评估比简单的"正确/错误"判断更有诊断价值
- 将 grounding 能力作为独立维度评估，对 RAG 应用直接有指导意义

## 局限性与风险
- 仅评估有源文档参考的场景，不涵盖开放域生成
- Factuality 的自动化评估本身可能存在误差
- 不同领域的 grounding 难度差异大，单一排名可能误导

## 与生态系统的关联
- 与 Vectara Hallucination Leaderboard 在 hallucination 评估方面互补
- 对 RAG 系统的模型选择有直接参考价值
- 与 TruLens 等可观测性工具的 faithfulness metric 理念一致
