# A Systematic Survey and Critical Review on Evaluating LLMs

> 原文链接：https://aclanthology.org/2024.emnlp-main.764/
> 作者/来源：EMNLP 2024
> 阅读日期：2026-05-06

## 一句话总结
发表在 EMNLP 2024 的系统性综述，对 LLM 评估方法进行批判性审视，涵盖评估维度、方法和未解决问题。

## 核心论点
- LLM 评估需要从多个维度进行：能力（capability）、对齐（alignment）、安全（safety）
- 静态 benchmark 面临快速过时的问题，动态评估方法是未来趋势
- 评估应区分"能力上限"（模型能做到什么）和"典型表现"（模型通常做到什么）
- 当前评估生态碎片化严重，缺乏标准化和可重复性

## 关键概念
- **Capability evaluation**：知识、推理、语言理解、代码生成等核心能力评估
- **Alignment evaluation**：模型输出是否符合人类意图和偏好
- **Safety evaluation**：有害内容、偏见、隐私泄露等安全维度
- **Dynamic evaluation**：通过不断更新题目避免 data leakage 的评估方式
- **Robustness evaluation**：对 prompt 格式、措辞变化的敏感性测试

## 实践建议
- 构建评估框架时应明确区分不同评估目标（capability vs alignment vs safety）
- 对同一能力使用多种 prompt 格式测试，以评估 robustness
- 关注 few-shot 设置下的性能变化，了解模型的 in-context learning 能力
- 建立 evaluation reproducibility checklist，确保结果可复现

## 独到观点
- EMNLP 顶会发表赋予了更强的学术严谨性，可能比 arXiv preprint 更值得信赖
- 批判性视角突出了评估的"已知未知"——我们知道自己不知道如何正确评估哪些方面
- 对评估中的"Goodhart's Law"现象深入分析

## 与其他文章的关联
- 与 "Evaluating Large Language Models: A Comprehensive Survey" 可能有大量重叠但视角不同
- 为 "Toward an evaluation science" 的呼吁提供了具体的学术证据
- 与 EleutherAI evaluation harness 的实际实现形成理论-实践对照
