# Evaluating LLMs at Detecting Errors

> 原文链接：https://arxiv.org/abs/2404.03602
> 作者/来源：arXiv 2024
> 阅读日期：2026-05-06

## 一句话总结
专门评估 LLM 检测其他 LLM 输出中错误的能力，发现模型在不同错误类型上的检测能力差异巨大。

## 核心论点
- 错误检测是 LLM-as-Judge 的一个关键子任务：judge 需要能发现回答中的事实错误、逻辑错误、不一致等
- 实验发现 LLM 对事实性错误（factual errors）的检测较好，但对推理错误（reasoning errors）和细微不一致的检测很差
- 错误类型对检测难度的影响大于错误严重程度的影响
- 较大的模型通常是更好的错误检测器，但也更容易"过度检测"（false positive）
- 在检测自己生成的错误时表现尤其差——暗示 self-evaluation 的局限性

## 关键概念
- **Error Detection**：在 LLM 输出中识别各类错误
- **Error Taxonomy**：错误类型分类（事实、逻辑、一致性、完整性等）
- **False Positive Rate**：错误地标记正确内容为错误的比率
- **Self-Detection Blindspot**：模型难以检测自身类型错误的盲区
- **Severity vs Detectability**：错误的严重性与可检测性不一定正相关

## 实践建议
- 对不同类型的错误使用不同的检测策略或 prompt
- 事实性检查可以结合外部知识库/搜索增强
- 对推理错误，要求 judge 逐步重走推理链而非整体判断
- 不要用模型自检：让不同模型交叉检测更有效
- 在 judge 系统中区分"确认无错"和"未发现错误"

## 独到观点
论文指出一个深层问题：如果模型犯某类错误是因为其知识/推理能力不足，那么同类能力不足也会导致它无法检测该类错误。这意味着 judge 和被评估者之间需要能力差距。

## 与其他文章的关联
- 与 "Learning to Plan & Reason for Evaluation" 相关：推理能力是检测推理错误的前提
- 与 "ALLURE: Auditing LLM Evaluation" 互补：ALLURE 审计评估过程中的错误
- 与 "Generative AI Paradox" 相关：生成能力与检测能力的不对称
