# AI Benchmarks and Datasets for LLM Evaluation

> 原文链接：https://arxiv.org/abs/2412.01020
> 作者/来源：arXiv preprint (2024)
> 阅读日期：2026-05-06

## 一句话总结
系统梳理用于 LLM 评估的主流 benchmark 和 dataset，提供分类体系和选择指南。

## 核心论点
- LLM benchmark 可按评估维度分类：知识、推理、编码、数学、安全性、多语言等
- 单一 benchmark 无法全面衡量 LLM 能力，需要多维度组合评估
- Dataset 质量直接决定评估结论的可信度，数据标注质量控制至关重要
- 开放获取的 benchmark 面临 data contamination 风险，封闭 benchmark 则缺乏透明度

## 关键概念
- **Knowledge benchmarks**：MMLU、ARC、TriviaQA 等测试事实知识的数据集
- **Reasoning benchmarks**：GSM8K、BBH、HellaSwag 等测试推理能力的数据集
- **Code benchmarks**：HumanEval、MBPP、SWE-bench 等编程评估数据集
- **Safety benchmarks**：ToxiGen、RealToxicityPrompts 等安全性评估数据集
- **Multilingual benchmarks**：跨语言能力评估的数据集

## 实践建议
- 根据应用场景选择最相关的 benchmark 子集，避免"全部跑一遍"的资源浪费
- 对关键决策使用多个 benchmark 交叉验证
- 注意 benchmark 版本更新，使用最新版本以减少 contamination
- 考虑构建私有 evaluation set 用于关键业务场景

## 独到观点
- 提供了一个实用的 benchmark 选择决策树，帮助从业者快速定位合适的评估工具
- 指出 benchmark "军备竞赛"的负面效果：模型优化特定 benchmark 而非真实能力

## 与其他文章的关联
- 为 Benchmark² 的 meta-evaluation 提供了被评估对象的目录
- 与 Open LLM Leaderboard 使用的具体 benchmark 直接对应
- 与 EleutherAI lm-evaluation-harness 支持的数据集高度重叠