# AutoGenBench

> 原文链接：https://microsoft.github.io/autogen/blog/2024/01/25/AutoGenBench/
> 作者/来源：Microsoft Research (AutoGen Team)
> 阅读日期：2026-05-06

## 一句话总结
微软为 AutoGen 多 agent 框架配套的评测工具，专门解决 multi-agent 系统评测中的可复现性、隔离性和环境管理难题。

## 核心论点
1. Multi-agent 系统的评测比单模型评测复杂得多——涉及多轮交互、工具调用、环境状态
2. Agent 评测需要严格的运行环境隔离（Docker）以确保可复现性
3. 传统 benchmark 的单次输入-输出模式不适用于 agent 的多步决策过程
4. 需要支持重复运行以统计性地评估 agent 的成功率

## 关键概念
- **Task Manifest**：以 JSON 定义评测任务的完整配置（环境、初始状态、成功标准）
- **Docker Isolation**：每次评测运行在独立 Docker 容器中确保环境一致性
- **Repetition & Statistical Evaluation**：对同一任务多次运行取统计结果
- **Environment State Management**：管理文件系统、API mock 等运行时环境
- **Scenario-based Testing**：基于场景而非单次问答的评测范式

## 实践建议
- Agent 评测至少运行 3-5 次以评估成功率的方差
- 使用 Docker 隔离避免评测间的状态泄漏
- 定义清晰的 success criteria（而非模糊的"质量评分"）
- 将 agent 的中间步骤也纳入评测（不仅看最终结果）

## 独到观点
- Agent 评测的核心挑战不是 metric 设计而是环境管理
- 可复现性在 agent 评测中比传统 NLP 评测更难保证（因为外部依赖更多）
- Agent 的"创造性"反而增加了评测难度——合理但非预期的路径如何打分？

## 与其他文章的关联
- 是 Microsoft AutoGen 框架的配套评测组件
- 与 Magentic-One 论文中的评测方法密切相关
- 影响了后续 agent benchmark（如 SWE-bench、WebArena）的评测基础设施设计
- 与 lm-evaluation-harness 形成互补——后者评测模型能力，AutoGenBench 评测 agent 能力
