# Can LLMs Replace Human Evaluators? An Empirical Study

> 原文链接：https://arxiv.org/abs/2502.06193
> 作者/来源：（学术论文，2025）
> 阅读日期：2026-05-06

## 一句话总结
实证研究 LLM 能否真正替代人类评估者，从一致性、成本、偏见等多维度进行系统比较。

## 核心论点
- LLM 与人类评估者的一致性因任务类型而异
- 在某些结构化任务上 LLM 已接近人类 inter-annotator agreement
- 在需要深度理解、文化背景、细微判断的任务上仍有差距
- 完全替代不现实，但辅助和部分替代已可行

## 关键概念
- **Human-LLM Agreement**：LLM 与人类评估的一致性度量
- **Inter-Annotator Agreement (IAA)**：人类评估者之间的一致性（upper bound）
- **Task Dependency**：替代可行性因任务类型而异
- **Cost-Quality Trade-off**：LLM 评估的成本优势 vs. 质量差距
- **Hybrid Approach**：人机协作的评估模式

## 实践建议
- 在决定是否使用 LLM judge 前，先在小规模上验证与人类的一致性
- 对高风险评估保留人工审核环节
- 使用 LLM 进行初筛，人类处理边界案例
- 定期重新验证 LLM-human 一致性（模型更新后可能变化）

## 独到观点
- "替代"不是二元选择而是一个连续谱：从完全人工到完全自动之间有丰富的中间态
- 人类评估者之间的不一致性本身设定了 LLM judge 的理论上限

## 与其他文章的关联
- 与 "Generative AI Paradox on Evaluation" 直接相关
- 与 PPI/PPI++ 相关：提供了人机结合的统计框架
- 与 "Faithful Model Evaluation" 相关：模型替代的忠实性问题
- 与 MemAlign 相关：提升对齐度是迈向替代的关键步骤
