# Toward an Evaluation Science for Generative AI Systems

> 原文链接：https://arxiv.org/abs/2503.05336
> 作者/来源：Laura Weidinger, Inioluwa Deborah Raji, Hanna Wallach, Margaret Mitchell, Angelina Wang 等
> 阅读日期：2026-05-06

## 一句话总结
呼吁建立生成式 AI 的"评估科学"，借鉴航空、制药等成熟安全工程领域的评估制度化经验。

## 核心论点
- 当前评估实践存在根本性不足：静态 benchmark 面临效度挑战，临时性审计难以规模化
- 需要从"评估作为技术任务"转向"评估作为科学学科"
- 成熟工程领域（交通、航空航天、制药）的评估方法论值得借鉴

## 关键概念
- **Evaluation Science**：将 AI 评估提升为一个有理论、方法和制度支撑的学科
- **Validity Challenges**：静态 benchmark 的效度问题（与 construct validity 相关）
- **Institutionalization**：建立评估标准的专业机构和规范
- **Continuous Refinement**：评估指标需要持续迭代而非一成不变
- **Deployment Context**：评估必须与真实部署场景对齐

## 实践建议
- 评估指标必须连接到实际的真实世界表现场景
- 建立标准化的评估流程和专业规范
- 评估不应是一次性事件，而是持续的过程
- 从其他成熟行业的安全评估框架中学习

## 独到观点
- 将评估类比为制药行业的临床试验，暗示 AI 部署前需要类似的"审批流程"
- 评估的制度化（institutionalization）可能比技术改进更重要
- 这是一篇"元评估"的元论文——讨论的不是如何评估，而是评估本身应该成为什么

## 与其他文章的关联
- 与 "Measuring What Matters" 形成理论互补：前者讲效度，本文讲制度
- 与 "Adding Error Bars to Evals" 相关：统计严谨性是评估科学的基础
- 与 "Sabotage Evaluations" 相关：安全评估是评估科学的重要应用场景
- 是整个 meta-evaluation 方向的纲领性文献