# How We Built Our Multi-Agent Research System：Anthropic 多 Agent 研究系统的构建实践

> 原文链接：https://www.anthropic.com/engineering/multi-agent-research-system
> 作者/来源：Jeremy Hadfield, Barry Zhang, Kenneth Lien, Florian Scholz, Jeremy Fox, Daniel Ford / Anthropic
> 阅读日期：2026-04-02

## 一句话总结
详细记录了 Anthropic 从原型到生产构建多 agent 研究系统的历程，采用 orchestrator-worker 模式，在内部研究 eval 上实现 90.2% 的性能提升，同时总结了 8 条 prompt engineering 原则和关键的生产工程挑战。

## 核心论点

文章的核心主张是：**多 agent 系统通过分布式推理能力超越单 agent 系统，但从原型到生产的距离远超预期**。Anthropic 的研究系统采用 orchestrator-worker 模式——一个 lead agent（Claude Opus 4）分析查询并制定策略，专门的 subagent（Claude Sonnet 4）并行执行不同方面的搜索，结果汇聚回 lead agent 进行综合。与静态 RAG 不同，这种架构使用动态、多步搜索，根据新发现不断调整。

性能数据令人印象深刻：多 agent 系统在需要广度优先并行探索的查询上，相比单 agent Opus 4 提升了 90.2%。但 token 消耗也惊人——agent 使用约 4 倍于标准对话的 token，多 agent 系统约 15 倍。一个关键发现是：**token 使用量本身解释了 BrowseComp evaluation 中 80% 的性能方差**——这意味着 token 可用性而非架构复杂度才是性能提升的主要驱动力。

文章总结的 8 条 prompt engineering 原则涵盖了从心智模型构建到并行化的完整实践。其中"Effort Calibration"（努力校准）原则尤为实用：简单事实查找使用 1 个 agent 配 3-10 次调用，复杂研究使用 10+ 个 subagent 并分配不同职责。"Tool-Testing Agent"的创新——用一个 agent 测试工具匹配质量——将后续任务完成率提升了 40%。

## 关键概念

- **Orchestrator-Worker Pattern（编排者-工作者模式）**：lead agent 制定策略和综合结果，subagent 并行执行具体搜索任务。每个 agent 的独立 context window 避免了单 agent 的瓶颈。
- **Effort Calibration（努力校准）**：根据任务复杂度动态分配资源，防止简单任务浪费资源或复杂任务资源不足。
- **Tool-Testing Agent**：专门测试工具匹配质量的 agent，改善了未来任务的工具选择，提升 40% 完成率。
- **Extended Thinking（扩展思考）**：lead agent 使用 planning 模式，subagent 使用 interleaved thinking 模式，通过可见的推理过程提升指令遵循和效率。
- **Rainbow Deployments（彩虹部署）**：在新旧版本间逐渐转移流量，防止更新中断正在运行的 agent——这是 agent 系统独有的部署挑战。
- **LLM-as-Judge**：使用单个 LLM 评估者基于 rubric 标准（事实准确性、引用精确度、完整性、来源质量、工具效率）进行 0.0-1.0 评分，最具一致性和可扩展性。
- **Token Economics**：多 agent 系统消耗 15 倍 token，token 使用解释 80% 性能方差，意味着经济可行性取决于任务价值。

## 实践建议
1. 从约 20 个代表性查询的小规模 eval 开始，而非等待全面测试套件——早期变更往往产生巨大效果
2. 使用 effort calibration 规则根据任务复杂度动态分配 agent 数量和调用次数
3. 为 tool 编写高质量描述，考虑使用 tool-testing agent 验证工具选择质量
4. 在 lead agent 和 subagent 上都启用 extended thinking 以提升指令遵循能力
5. 使用 rainbow deployment 策略，避免更新打断正在运行的长时间 agent
6. 监控决策模式和交互结构而非对话内容，在保护隐私的同时实现可观测性
7. 多 agent 系统适合需要广度搜索的任务，不适合需要大量共享 context 或高度相互依赖的任务

## 独到观点
文章最独特的贡献是**第一手的多 agent 生产经验报告**，包含罕见的性能数据（90.2% 提升、15x token 消耗、token 解释 80% 方差）。"Token 可用性驱动性能"这一发现尤其重要——它暗示许多多 agent 架构的优势可能主要来自于更多的 token 投入而非架构创新。Rainbow deployment 的概念和"SEO 内容偏好"的发现（agent 偏爱 SEO 优化内容而非权威学术来源）都是只有在生产环境中才能获得的宝贵洞见。原型到生产的巨大差距的坦诚讨论对业界有重要警示价值。

## 与其他文章的关联
- 与 [12-Factor Agents](25-humanlayer-12-factor-agents.md) 的"Small, Focused Agents"原则高度一致——subagent 就是小而专注的 agent 的典型应用
- Orchestrator-worker 模式可视为 [12-Factor Agents](25-humanlayer-12-factor-agents.md) "micro-agent 嵌入 DAG"理念的具体实现
- LLM-as-Judge 评估方法与 [Anthropic: Demystifying Evals](29-anthropic-demystifying-evals.md) 中的 model-based grader 对应
- 生产工程挑战（error compounding、rainbow deployment）为 [AgentOps](26-12-factor-agentops.md) 的运维讨论提供了实例
- Token economics 的讨论与 [Anthropic: Infrastructure Noise](30-anthropic-infrastructure-noise.md) 中资源对性能影响的研究相呼应
- [LangChain: Improving with Harness Engineering](32-langchain-improving-with-harness.md) 中的 context engineering 实践在多 agent 场景下更为复杂
- [Anthropic: Claude Agent SDK](36-anthropic-claude-agent-sdk.md) 可能为构建此类多 agent 系统提供了 SDK 级别的支持