# Order in the Evaluation Court: A Critical Analysis of NLG Evaluation Trends

> 原文链接：https://arxiv.org/abs/2601.07648
> 作者/来源：arXiv preprint (2025)
> 阅读日期：2026-05-06

## 一句话总结
对自然语言生成（NLG）评估方法的发展趋势进行批判性分析，揭示当前评估实践中的系统性问题和偏差。

## 核心论点
- NLG 评估领域存在明显的"跟风"趋势，研究者倾向于使用流行的 metric 而非最适合任务的 metric
- 自动评估指标（automatic metrics）与人类判断之间的相关性并不稳定，随任务和领域变化显著
- LLM-as-Judge 正在快速替代传统 metric（如 BLEU、ROUGE），但其可靠性尚未得到充分验证
- 评估方法的选择往往受论文发表压力驱动，而非科学严谨性驱动

## 关键概念
- **NLG Evaluation**：涵盖文本摘要、对话生成、机器翻译等任务的质量评估
- **Reference-based vs Reference-free metrics**：有参考答案和无参考答案的评估方式
- **Human evaluation protocols**：人类评估的标准化协议，包括评分量表设计、annotator agreement
- **Meta-evaluation**：对评估方法本身进行评估（评估的评估）
- **Evaluation trends**：从 n-gram overlap → embedding-based → LLM-based 的演进路线

## 实践建议
- 不应盲目采用最新或最流行的评估方法，应根据具体任务特点选择合适的 metric 组合
- 人类评估仍是不可替代的金标准，应投入资源设计严格的 annotation guideline
- 报告评估结果时应包含 confidence interval 和 inter-annotator agreement
- 建议建立评估方法的 meta-evaluation 体系，定期检验 metric 的有效性

## 独到观点
- 提出"evaluation court"的隐喻：评估方法如同法庭审判，需要严格的程序正义
- 指出 evaluation 领域存在"马太效应"——被广泛使用的 metric 获得更多研究关注，而小众但可能更好的方法被忽视
- 呼吁社区建立评估方法的"退役"机制，淘汰已被证明不可靠的旧指标

## 与其他文章的关联
- 与 "A Survey of Useful LLM Evaluation" 互补，后者侧重实用性分类
- 与 "LLMs-as-Judges" 综述相关，本文可能质疑 LLM-as-Judge 的可靠性
- 为 benchmark 设计（如 Benchmark² 论文）提供了评估哲学层面的指导
