# About Evals

> 原文链接：https://deeplearning.ai/the-batch/issue-297/
> 作者/来源：Andrew Ng (DeepLearning.AI / The Batch)
> 阅读日期：2026-05-06

## 一句话总结
Andrew Ng 向广大 AI 从业者普及评估(Evals)的重要性，强调 eval 是 AI 应用开发中最被低估的环节。

## 核心论点
- Eval 是 AI 应用成功的瓶颈——大多数团队在这里投入不足
- 好的 eval 能加速整个开发周期：更快迭代、更少退化、更有信心的部署
- Eval 应该由构建产品的人来设计，而非独立的 QA 团队
- AI 时代的"测试"与传统软件测试有本质不同——输出非确定性要求新方法

## 关键概念
- **Eval 的三个层次**：Unit-level（单个 LLM 调用）、Pipeline-level（多步骤流程）、System-level（端到端体验）
- **Non-deterministic testing**：LLM 输出的随机性要求统计性思维而非精确匹配
- **Eval as development accelerator**：eval 不是"负担"而是"加速器"
- **Human-AI collaboration in eval**：人定义标准，AI 执行大规模评估

## 实践建议
- 将 eval 视为开发流程的核心而非附加步骤
- 开发者自己写 eval——不要委托给不了解产品的人
- 从简单的 assertion-based eval 开始，逐步升级到 LLM-based eval
- 定期回顾 eval 与用户实际体验是否对齐
- 团队中建立 eval review 文化，类似 code review

## 独到观点
- Andrew Ng 的影响力使这个信息触达更广泛受众——eval 文化的传播需要布道者
- 将 eval 重新定义为"开发加速器"而非"质量保障"是重要的 framing 转变
- 强调 eval 技能应成为 AI 工程师的核心素养

## 与其他文章的关联
- 与 Hamel Husain "Your AI Product Needs Eval" 理念一致，面向不同受众
- 与 Anthropic "Demystifying Evals" 在方法论上互补
- 与 Humanloop "Optimizing LLMs" 共享 evaluation-first 思维
- 作为领域倡导性文章，为其他技术深度文章提供了入门背景