# Demystifying Evals for AI Agents：AI Agent 评估体系的全面解密

> 原文链接：https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
> 作者/来源：Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe / Anthropic
> 阅读日期：2026-04-02

## 一句话总结
系统化定义了 AI agent 评估的完整术语体系和方法论框架，涵盖从 grader 分类到不同 agent 类型的评估策略，并提供了 8 步实施路线图。

## 核心论点

文章的核心立场是：evaluation 是 AI agent 开发的**关键基础设施**，而非事后补充。好的 eval 帮助团队更自信地交付 agent 产品，避免问题只在部署后才暴露的被动调试模式。作者团队系统化地定义了 eval 领域的完整术语——task、trial、grader、transcript、outcome、evaluation harness、agent harness、evaluation suite——为行业提供了统一的语言。

文章的方法论框架将 grader 分为三类：**Code-Based Graders**（基于代码的评分器，快速且可复现但可能脆弱）、**Model-Based Graders**（基于模型的评分器，能捕捉开放式任务的微妙之处但引入不确定性）和 **Human Graders**（人类评分器，金标准但昂贵缓慢）。这三类 grader 的选择和组合取决于任务性质。

另一个重要维度是 **capability evaluation** 和 **regression evaluation** 的区分。Capability eval 衡量 agent 能完成什么新任务（pass rate 从低开始上升），而 regression eval 确保已掌握任务的一致性（应保持接近 100%）。当 capability eval 达到 100% 时，应将其转化为 regression suite——这个生命周期管理概念非常实用。

## 关键概念

- **Evaluation Harness vs Agent Harness**：Evaluation harness 是端到端执行 eval 的基础设施；agent harness 是使模型作为 agent 运作的系统。两者分离使得评估可以独立于 agent 实现进行。
- **pass@k 和 pass^k**：两个度量非确定性的关键指标。pass@k 是 k 次尝试中至少一次成功的概率（随 k 增加而上升）；pass^k 是 k 次全部成功的概率（随 k 增加而下降）。两者揭示系统的不同属性。
- **Transcript（记录）**：包含 tool call、推理过程和输出的完整交互记录。阅读 transcript 是验证 grader 有效性的关键步骤。
- **Outcome vs Agent Report**：最终环境状态（outcome）与 agent 自称完成的结果可能不同。eval 应验证实际 outcome 而非 agent 的自我报告。
- **Capability Eval → Regression Eval 生命周期**：capability eval 达到饱和后转化为 regression suite，形成持续的质量保证体系。
- **Eval-Driven Development**：类似 TDD 的实践，在实现功能之前先通过测试定义能力。

## 实践建议
1. 尽早开始 eval，用 20-50 个基于真实失败案例的简单任务启动，而非等待完美的综合测试套件
2. 将已有的手动发布前检查转化为正式的 eval test case
3. 确保 task 定义无歧义，配有参考解决方案
4. 平衡正面和负面测试用例，避免类别不平衡
5. 建立隔离的 trial 环境，防止交叉污染
6. 优先使用确定性 grader，在必要时使用 LLM grader，避免过度严格的规范
7. 定期阅读 transcript——0% pass rate 多数时候意味着 task 有问题，而非 agent 无能
8. 将 eval 置于更广泛的质量保证生态中，包括生产监控、A/B 测试和用户反馈

## 独到观点
文章最独特的贡献是为 agent eval 领域提供了一套**完整且规范化的术语体系和分类框架**。在一个术语混用、方法论碎片化的领域，这种系统化的梳理极为有价值。pass@k 和 pass^k 两个指标的引入也很精到——它们量化了 agent 行为的非确定性，这是传统软件测试中不存在的独特挑战。此外，按 agent 类型（coding、conversational、research、computer use）分别给出评估策略的做法，体现了对不同 agent 场景特殊性的深刻理解。

## 与其他文章的关联
- 是整个评估主题的**方法论基石**，为 [OpenAI: Eval Skills](27-openai-eval-skills.md) 和 [OpenHands: Evaluating Agent Skills](28-openhands-evaluating-skills.md) 提供了上层框架
- Evaluation harness 的定义与 [LangChain: Frameworks, Runtimes, and Harnesses](34-langchain-frameworks-runtimes-harnesses.md) 中 harness 概念直接对应
- [Anthropic: Infrastructure Noise](30-anthropic-infrastructure-noise.md) 深入探讨了本文提及的 eval 非确定性问题
- [LangChain: Evaluating Deep Agents](31-langchain-evaluating-deep-agents.md) 是对深度 agent eval 经验的补充，提供了更多实战洞见
- Eval-driven development 的理念与 [12-Factor Agents](25-humanlayer-12-factor-agents.md) 中 agent 可测试性原则相呼应
- [OpenHands: Learning to Verify AI Code](33-openhands-verify-ai-code.md) 关注的代码验证问题是 coding agent eval 的具体子领域