# Evaluating LLMs at Detecting Errors in LLM Responses

> 原文链接：https://arxiv.org/abs/2404.03602
> 作者/来源：（学术论文，2024）
> 阅读日期：2026-05-06

## 一句话总结
评估 LLM 检测其他 LLM 回答中错误的能力，探索"错误检测"作为一种特殊评估能力的特征。

## 核心论点
- 错误检测是 LLM-as-Judge 的核心能力之一
- 不同类型的错误（事实错误、逻辑错误、不一致性）的检测难度不同
- LLM 的生成能力和错误检测能力不完全正相关

## 关键概念
- **Error Detection**：识别 LLM 输出中各类错误的能力
- **Error Taxonomy**：事实错误、逻辑错误、一致性错误、幻觉等分类
- **Detection vs. Generation**：检测错误的能力 vs. 生成正确答案的能力
- **Fine-grained Evaluation**：对具体错误类型的精确定位

## 实践建议
- 评估 judge 的错误检测能力时应按错误类型分别测试
- 训练专门的错误检测模型可能比使用通用 judge 更有效
- 在评估流程中加入"错误定位"步骤（而非仅给整体分数）
- 利用错误检测结果提供可操作的改进建议

## 独到观点
- 错误检测是一种独立于生成的能力维度
- 暗示 judge 的价值不仅在于"打分"，更在于"找问题"

## 与其他文章的关联
- 与 "Learning to Plan & Reason" 相关：推理能力助力错误检测
- 与 "Generative AI Paradox" 相关：生成强≠评估/检测强
- 与 "ALLURE" 相关：ALLURE 测试 judge 是否能被错误所迷惑
