# Can LLMs Replace Human Evaluators?

> 原文链接：https://arxiv.org/abs/2502.06193
> 作者/来源：arXiv 2025
> 阅读日期：2026-05-06

## 一句话总结
系统性地比较 LLM 评估与人类评估在多个维度上的差异，给出"何时可以替代、何时不能"的结论。

## 核心论点
- LLM 在某些评估任务上已接近或达到人类标注者间一致性水平（如语法正确性、事实性检查）
- 但在高度主观、文化相关、需要领域专业知识的任务上，LLM 仍有显著局限
- 替代性不是二元的：应该区分"完全替代"、"辅助加速"、"初筛"三个层次
- 人类评估本身也有噪声和偏差，LLM 的一致性反而可能是优势（但也可能是系统性偏差的表现）
- 建议采用混合策略：LLM 做大规模初筛 + 人类做边界案例审核

## 关键概念
- **Inter-Annotator Agreement (IAA)**：人类标注者间一致性，作为 LLM 替代性的 benchmark
- **Task Taxonomy**：按主观性、专业性、文化依赖性对评估任务分类
- **Complementarity**：人类和 LLM 各自的优势互补
- **Scalability vs Validity Trade-off**：规模化与有效性的权衡
- **Systematic Bias vs Random Noise**：LLM 的系统性偏差 vs 人类的随机噪声

## 实践建议
- 在决定是否用 LLM 替代人类前，先在小规模数据上测量 LLM-人类一致性
- 对于客观性强的任务（语法、格式、事实核查），可以放心使用 LLM
- 对于主观性强的任务（创意写作质量、文化适当性），保留人类在环
- 定期用新的人类标注数据审计 LLM judge 的表现，检测漂移

## 独到观点
论文指出一个悖论：我们用人类评估作为 gold standard 来验证 LLM judge，但人类评估本身也不完美。真正的问题不是"LLM 能否达到人类水平"，而是"LLM+人类协作能否超过纯人类"。

## 与其他文章的关联
- 与 "Generative AI Paradox on Evaluation" 主题相关：生成能力与评估能力的不对称
- 与 "Who Validates the Validators?" 互补：都在讨论评估系统本身的可靠性
- 与 "Replacing Judges with Juries" 相关：jury 模式是一种折中方案
