# Who Validates the Validators?

> 原文链接：https://arxiv.org/abs/2404.12272
> 作者/来源：arXiv 2024
> 阅读日期：2026-05-06

## 一句话总结
直面 LLM 评估中的递归验证问题——谁来验证验证者？——并提出打破无限回归的实用框架。

## 核心论点
- LLM-as-Judge 引入了一个哲学和实践难题：如果我们用 LLM 评估 LLM，那谁来评估这个 evaluator？
- 这不是纯理论问题：如果 judge 本身不可靠，基于它的所有结论都不可信
- 提出多层次验证框架：(1) 与人类判断对比；(2) 内部一致性检查；(3) 已知答案测试（sanity check）
- 关键洞察：不需要完美的验证，只需要"足够好"的验证——通过多重交叉验证建立信任
- 人类判断本身也有噪声，形成一个"信任链"问题，需要务实态度
- 建议使用"信任但验证"策略：默认信任 judge，但持续用小规模人类标注进行抽样审计

## 关键概念
- **Infinite Regress**：验证者需要被验证，验证验证者也需要被验证的无限回归问题
- **Grounding**：通过人类判断作为最终锚点打破无限回归
- **Trust Chain**：从 judge 到人类到 ground truth 的信任传递
- **Cross-Validation**：多个独立验证信号交叉确认
- **Sanity Check**：用已知正确答案的样本测试 judge
- **Bootstrap Problem**：用什么标准来验证标准本身？

## 实践建议
- 维护一个 "golden set"：已知正确判断的测试用例，定期验证 judge
- 使用多个独立的验证信号，不依赖单一验证方法
- 对 judge 的信任应该是动态的：表现好则增加信任，发现问题则降低
- 在关键决策中保持人类审核，即使 judge 在日常使用中表现良好
- 接受人类评估中的合理分歧并将其作为 judge 性能的 upper bound

## 独到观点
论文将认识论（epistemology）的基础问题引入 AI 工程实践。其实用解法是：接受"没有完美验证"的现实，通过冗余和多样性建立"足够好"的信任——类似于科学方法论中的可证伪性思想。暗示了一种"有限信任"的务实态度。

## 与其他文章的关联
- 与 "Judging the Judges" 互补：同一问题的不同切入角度
- 与 "JudgeBench" 相关：JudgeBench 是验证 judge 的具体工具
- 与 "Can LLMs Replace Human Evaluators?" 相关：人类在验证链中的最终角色
