# Toward an Evaluation Science for Generative AI Systems

> 原文链接：https://arxiv.org/abs/2503.05336
> 作者/来源：arXiv preprint (2025)
> 阅读日期：2026-05-06

## 一句话总结
倡导将 generative AI 评估从零散的实践提升为系统性的"评估科学"（evaluation science），建立理论基础和方法论框架。

## 核心论点
- 当前 GenAI 评估缺乏统一的科学基础，各团队各自为政，方法不可比
- 评估不仅是技术问题，还涉及社会、伦理和治理层面
- 需要借鉴其他成熟领域（如心理测量学、计量经济学、临床试验）的评估方法论
- 评估应覆盖模型的完整生命周期，而非仅限于开发阶段的 benchmark 跑分

## 关键概念
- **Evaluation science**：将评估作为独立学科，具有自己的理论、方法和质量标准
- **Construct validity**：评估是否真正测量了它声称要测量的东西
- **Ecological validity**：评估场景是否反映真实使用场景
- **Evaluation lifecycle**：pre-deployment → deployment → post-deployment 的全周期评估
- **Sociotechnical evaluation**：结合技术性能和社会影响的综合评估

## 实践建议
- 评估设计应明确定义 construct（要测量什么能力），避免"测量了什么都不确定"的情况
- 引入 pre-registration 机制，防止 p-hacking 式的 benchmark 挑选
- 建立跨组织的评估标准和共享 protocol
- 考虑评估的 downstream impact，而非仅关注 accuracy 数字

## 独到观点
- 将 GenAI 评估类比临床试验的严格程度，暗示当前评估远未达到应有的科学标准
- 提出评估本身需要"同行评审"机制
- 强调 evaluation 与 governance/regulation 的紧密联系

## 与其他文章的关联
- 为 Benchmark² 的 meta-evaluation 提供了更宏观的理论框架
- 与 NIST、EU AI Act 等监管框架中的评估要求呼应
- 对 LLM-as-Judge 等具体方法提出了更高的科学性要求