# Evaluating Large Language Models: A Comprehensive Survey

> 原文链接：https://arxiv.org/abs/2310.19736
> 作者/来源：arXiv preprint (2023)
> 阅读日期：2026-05-06

## 一句话总结
早期且全面的 LLM 评估综述，系统分类了评估任务、数据集和方法论，是该领域的奠基性参考文献。

## 核心论点
- LLM 评估需要从三个层面展开：what to evaluate（评什么）、where to evaluate（用什么数据）、how to evaluate（怎么评）
- 评估维度应涵盖：自然语言理解、推理、生成、知识、代码、安全等
- 自动评估和人类评估各有优缺点，应互补使用
- 评估方法应随模型能力演进而不断更新

## 关键概念
- **What to evaluate**：NLU、NLG、reasoning、coding、tool use、alignment 等能力维度
- **Where to evaluate**：各种 benchmark dataset 的分类和适用范围
- **How to evaluate**：automatic metrics、human evaluation、model-based evaluation
- **Evaluation settings**：zero-shot、few-shot、chain-of-thought 等不同推理设置
- **Emergent abilities**：大模型涌现能力的评估挑战

## 实践建议
- 作为入门参考文献非常合适，提供了完整的评估全景图
- 按论文的分类体系建立自己的评估矩阵
- 注意该论文发布于 2023 年，部分 benchmark 和结论可能已过时
- 使用论文中的 taxonomy 作为构建评估方案的 checklist

## 独到观点
- 作为 2023 年的早期综述，建立了后续研究广泛引用的分类框架
- 对 emergent abilities 评估的讨论具有前瞻性
- 对比不同规模模型的评估策略差异

## 与其他文章的关联
- 是后续 EMNLP 2024 综述和其他 survey 的重要基础文献
- 与 "A Survey of Useful LLM Evaluation" 形成学术性 vs 实用性的对比
- 覆盖的 benchmark 目录可与 EleutherAI evaluation harness 对照