# How to Evaluate Agent Skills (And Why You Should)：为什么以及如何评估 Agent 技能

> 原文链接：https://openhands.dev/blog/evaluating-agent-skills
> 作者/来源：Rajiv Shah / OpenHands
> 阅读日期：2026-04-02

## 一句话总结
通过三个案例研究证明 agent skill 的效果高度依赖上下文（任务复杂度、模型能力、实现质量），有些 skill 甚至会降低 agent 表现，因此必须通过严格的 A/B 评估来验证每个 skill 的实际价值。

## 核心论点

文章直击 agent 开发中一个常见但危险的假设：**添加 skill 总能提升 agent 表现**。Rajiv Shah 用实证数据表明"有些 skill 是变革性的，有些只是安全网，有些实际上会让 agent 变得更差"。这一发现对 agent 开发实践有深远影响——它意味着每一个 skill 都需要经过严格的实证评估，而非凭直觉判断其价值。

文章提出的核心评估框架包含三个必要组件：**Bounded Task**（有界任务，agent 可在一个执行周期内完成的自包含问题）、**Deterministic Verifier**（确定性验证器，基于输出的客观通过/失败标准）和 **No-Skill Baseline**（无 skill 基线，展示没有该 skill 时的表现）。这三个组件的组合使得 skill 评估变得科学化和可重复。

三个案例研究生动展示了 skill 效果的光谱分布。Dependency Audit 任务中 skill 是变革性的（从 0% 到 100%），因为它教会了 agent 特定的工作流程。Financial Report Extraction 中 skill 是安全网（从 90% 到 100%），主要减少了已有能力的错误率。Sales Pivot Analysis 则展示了最复杂的情况——效果因模型而异，某些模型在没有 skill 的情况下表现更好。

## 关键概念

- **Skill（技能）**：赋予 agent 特定能力的指令或知识模块。不同于通用 prompt，skill 针对特定任务类型提供专门指导。
- **Bounded Task（有界任务）**：自包含的、可在单次执行中完成的问题，是评估的基本单位。
- **Deterministic Verifier（确定性验证器）**：基于输出结果的客观通过/失败判定器，避免主观评估的不确定性。
- **No-Skill Baseline（无技能基线）**：评估 skill 价值的对照组。没有基线，无法判断 skill 是提升还是降低了表现。
- **Negative Performance Delta（负面性能差异）**：某些 skill 反而降低 agent 表现的现象。可能因为 skill 引入了不必要的约束或与模型的内置能力冲突。
- **Model-Specific Effectiveness（模型特定的有效性）**：同一 skill 对不同模型的效果可能截然不同，随着模型进化，之前必要的 skill 可能变得多余。

## 实践建议
1. 为每个 skill 建立严格的 A/B 评估，始终包含无 skill 的基线对照
2. 在多个模型上测试 skill 效果，不要假设对一个模型有效就对所有模型有效
3. 定期重新评估现有 skill，因为模型升级可能使某些 skill 过时或产生负面效果
4. 关注 pass/fail 之外的次要指标：运行时间、事件数量、工具使用模式——这些揭示 skill 是否提升了效率
5. 从简单的确定性验证器开始，避免过早引入复杂的评估方法
6. 将 skill 评估结果记录为团队知识库，指导后续 skill 开发和选择

## 独到观点
文章最独特的贡献是用实证数据打破了"skill 总是有益的"这一普遍假设。特别是"某些 skill 会让 agent 变差"和"skill 效果因模型而异"这两个发现，对于 agent 工程实践具有重要的警示意义。三个案例研究覆盖了 skill 效果的完整光谱（变革性 → 安全网 → 混合效果），提供了直观的分类框架。另外，将 skill 评估与模型演化关联起来的视角也很独特——随着模型能力提升，skill 的"保质期"问题值得持续关注。

## 与其他文章的关联
- 与 [OpenAI: Eval Skills](27-openai-eval-skills.md) 形成最直接的对比：OpenAI 侧重如何构建和评估单个 skill，OpenHands 侧重验证 skill 是否真的有价值
- [Anthropic: Demystifying Evals](29-anthropic-demystifying-evals.md) 提供了更广泛的 eval 方法论框架，本文可视为其在 skill 评估方向的具体化
- "Negative Performance Delta"现象与 [Anthropic: Infrastructure Noise](30-anthropic-infrastructure-noise.md) 讨论的噪声问题相关——需要区分真实的 skill 效果和评估噪声
- [LangChain: Improving Deep Agents with Harness Engineering](32-langchain-improving-with-harness.md) 中的 harness engineering 本质上也是一种"skill"，同样需要验证其有效性
- [OpenHands: Learning to Verify AI-Generated Code](33-openhands-verify-ai-code.md) 是 OpenHands 的另一篇文章，关注代码验证——与确定性验证器的设计思路一脉相承
