# Demystifying Evals for AI Agents

> 原文链接：https://anthropic.com/engineering/demystifying-evals-for-ai-agents
> 作者/来源：Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe (Anthropic)
> 阅读日期：2026-05-06

## 一句话总结
系统化的评估框架是 AI Agent 从原型走向生产的关键，本文提供了从任务设计到 Grader 选择再到长期维护的完整方法论。

## 核心论点
- 没有严格的 evals，团队只能被动地在用户遇到问题时才发现缺陷
- Evals 分为 Capability evals（衡量潜力）和 Regression evals（防止退化）两类
- 评估应关注 outcome（最终状态）而非 agent 的具体执行路径
- 单一方法不够，evals 需与 production monitoring、A/B testing、human review 配合

## 关键概念
- **Task**：单个测试，包含明确输入和成功标准
- **Trial**：对同一 task 的一次尝试（多次 trial 提高一致性）
- **Grader**：评分逻辑，分三类：Code-based（快速客观但脆弱）、Model-based（灵活可扩展但非确定性）、Human-based（金标准但慢且贵）
- **Transcript**：完整交互记录（包含 tool calls 和 reasoning）
- **pass@k**：k 次尝试中至少成功一次的概率
- **pass^k**：k 次尝试全部成功的概率——相同 pass rate 可能掩盖不同的可靠性特征

## 实践建议
1. 从 20-50 个简单 task 起步，来源于真实失败案例和手动测试流程
2. 设计标准：两个领域专家能独立得出相同 pass/fail 判定
3. 平衡正向和负向测试场景
4. 为每个 trial 维护隔离的干净环境
5. 多组件任务引入 partial credit
6. 定期阅读 transcripts 验证 grader 准确性
7. 建立专门的 ownership，同时允许领域专家贡献任务

## 独到观点
前沿模型常发现超出预设评估标准的创造性解决方案。文中举例 Claude Opus 4.5 发现政策漏洞——系统在 eval 中"失败"但实际上提供了更优的用户结果。这揭示了 eval 设计中"正确答案"的局限性。

## 与其他文章的关联
- 与 Eugene Yan 的 Product Evals 互补：本文偏 agent 系统，Eugene 偏产品级 LLM 应用
- 与 Hamel Husain 的 "Your AI Product Needs Eval" 理念一致：尽早开始、基于真实失败
- Grader 设计思路可对照 "LLM-as-a-Judge" 方法论