# Vectara Hallucination Leaderboard

> 仓库地址：https://github.com/vectara/hallucination-leaderboard
> 作者/组织：Vectara
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
专注评估 LLM 幻觉（hallucination）率的排行榜，量化模型在摘要任务中捏造信息的频率。

## 项目定位与架构
- 单一维度深耕：专门测量 LLM 的 hallucination rate
- 使用文本摘要任务作为测试场景——给定文档生成摘要，检测摘要中的虚假信息
- 基于 Vectara 的 HHEM（Hughes Hallucination Evaluation Model）进行自动检测
- 定期更新，跟踪新模型

## 关键技术特性
- **Summary-based evaluation**：通过摘要任务测试 faithfulness
- **HHEM model**：专门训练的 hallucination 检测模型
- **Hallucination rate metric**：摘要中不被源文档支持的内容比例
- **Model coverage**：覆盖主流开源和闭源 LLM
- **Automated pipeline**：全自动化的评估流程

## 设计亮点与创新
- 聚焦单一且极其重要的维度，简洁有力
- 提供了 hallucination 的量化比较，帮助用户做风险评估
- 专用检测模型比通用 LLM judge 更精确

## 局限性与风险
- 仅通过摘要任务评估，不覆盖其他场景（QA、对话等）的 hallucination
- HHEM 模型本身可能存在漏检和误检
- Hallucination 的定义和边界有争议（paraphrase vs hallucination）
- 作为商业公司产品的关联项目，中立性需考量

## 与生态系统的关联
- 与 FACTS Grounding Leaderboard 直接对标
- 与 Patronus Enterprise Scenarios 在 hallucination 维度重叠
- TruLens 的 faithfulness metric 使用类似理念
- 为 RAG 系统的模型选择提供了关键参考
