# Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks

> 原文链接：https://arxiv.org/abs/2411.04468v1
> 作者/来源：Microsoft Research
> 阅读日期：2026-05-06

## 一句话总结
微软提出的通用多 agent 系统架构，采用 Orchestrator + 专家 agent 的分层设计，并配套提出了评测多 agent 系统的方法论和基准。

## 核心论点
1. 复杂现实世界任务需要多个具有不同能力的 agent 协作完成
2. Orchestrator 模式（一个协调者 + 多个专家）优于扁平式多 agent 架构
3. 通用性要求系统在未见过的任务类型上也能合理分解和委派
4. 评测 multi-agent 系统需要跨多个维度：任务完成率、效率、鲁棒性

## 关键概念
- **Orchestrator Agent**：负责任务分解、子任务分配和进度监控的协调者
- **Specialist Agents**：WebSurfer（网页浏览）、FileSurfer（文件操作）、Coder（代码执行）、ComputerTerminal（系统操作）
- **Ledger Mechanism**：Orchestrator 维护的任务进度记录和规划状态
- **Error Recovery**：agent 失败时的重试和重新规划机制
- **Multi-benchmark Evaluation**：在 GAIA、AssistantBench、WebArena 等多个 benchmark 上评测

## 实践建议
- 多 agent 系统应有明确的失败检测和恢复机制
- Orchestrator 的规划能力是系统瓶颈——投资于其 prompt 工程
- 评测应同时考虑成功率和完成效率（token 消耗、步数）
- 在多个 benchmark 上评测以避免过拟合特定任务分布

## 独到观点
- "通用性"比"特定任务的 SOTA"更有实际价值
- 分层协调比让所有 agent 平等对话更高效
- Agent 系统的评测应关注"优雅降级"——部分完成也是有价值的

## 与其他文章的关联
- 使用 AutoGenBench 作为评测基础设施
- 基于 Microsoft AutoGen 框架构建
- 与 OpenAI 的 Swarm、CrewAI 等多 agent 框架形成竞争对比
- 在 GAIA benchmark 上展示了 SOTA 结果，推动了 agent 评测标准化