# A Survey of Useful LLM Evaluation

> 原文链接：https://arxiv.org/abs/2406.00936
> 作者/来源：arXiv preprint (2024)
> 阅读日期：2026-05-06

## 一句话总结
从"实用性"角度出发的 LLM 评估综述，关注哪些评估方法对模型开发和部署决策真正有帮助。

## 核心论点
- 评估的最终目的是辅助决策，而非单纯产出排名数字
- "有用的评估"应该能回答具体的工程问题：选哪个模型？哪里需要改进？能否上线？
- 许多学术 benchmark 对工业实践的指导价值有限
- 评估设计应从下游任务需求出发（task-driven），而非从现有 benchmark 出发

## 关键概念
- **Useful evaluation**：能直接指导决策的评估，与"学术性评估"相对
- **Evaluation for selection**：帮助选择最佳模型的评估
- **Evaluation for improvement**：帮助发现模型弱点的诊断性评估
- **Evaluation for deployment**：判断模型是否达到上线标准的评估
- **Task-specific vs general evaluation**：针对特定任务 vs 通用能力的评估

## 实践建议
- 明确评估目的再设计评估方案：是选型？诊断？还是上线判断？
- 构建贴近真实用户请求的 evaluation set，比使用通用 benchmark 更有价值
- 对于企业场景，建议投入构建 domain-specific evaluation set
- 将评估嵌入 CI/CD pipeline，实现持续评估而非一次性跑分

## 独到观点
- 区分了"有趣的评估"和"有用的评估"，很多学术论文追求前者
- 提出评估的 ROI 概念——花多少资源做评估才是值得的
- 强调 evaluation set 的可维护性和演化能力

## 与其他文章的关联
- 与 "Toward an evaluation science" 在方法论层面互补
- 与 DeepEval、OpenEvals 等工程导向的评估工具理念一致
- 对 Open LLM Leaderboard 等通用排行榜的实用价值提出隐性质疑