# Anthropic: Effective Context Engineering for AI Agents

> 原文链接：https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
> 作者/来源：Anthropic
> 阅读日期：2026-04-02

## 一句话总结
Anthropic 将 context engineering 定义为 prompt engineering 的进化——**在 LLM 推理过程中策划和维护最优 token 集合的艺术**，核心原则是找到最小的高信号 token 集合以最大化期望结果。

## 核心论点
文章的核心框架是：context engineering 不仅仅是写好 prompt，而是**管理整个推理过程中的信息环境**，包括 system instructions、tools、外部数据和消息历史。根本原则是"找到最小的高信号 token 集合来最大化期望结果"——这意味着 context 不是越多越好，而是需要精心策划。

文章从 transformer 架构的底层原理解释了为什么 context 管理如此重要：LLM 需要处理 n² 的 pairwise token 关系，随着 context window 增长，准确度下降（即 "context rot"）。在较短序列上训练的模型在受限 context 中表现更好。因此，**context 是一种有限资源，具有递减回报**。

在策略层面，文章覆盖了三个核心维度。**静态 context**（system prompt、tools、examples）需要找到"Goldilocks zone"——足够具体以指导行为，又足够灵活以提供强启发。**运行时 context 检索**推荐 Just-in-Time 策略：维护轻量级标识符（文件路径、链接、查询），按需动态加载数据。这模拟了人类认知——我们不记忆一切，而是使用索引系统按需检索。**长周期任务**则通过 compaction（摘要压缩）、structured note-taking（结构化笔记）和 sub-agent 架构来应对。

## 关键概念
- **Context Engineering**：从 prompt engineering 进化而来的概念，涵盖"在 LLM 推理过程中策划和维护最优 token 集合"。超越了单纯的 prompt 编写，包含了运行时的动态 context 管理。
- **Context Rot（context 腐化）**：随着 context window 增长，LLM 准确度下降的现象。根源在于 transformer 架构的 n² pairwise token 关系。
- **Goldilocks Zone（恰到好处区间）**：system prompt 的最佳设计点——既不过于僵化（脆弱的 if-else 逻辑），也不过于模糊。
- **Just-in-Time Context Retrieval**：不预先加载所有数据，而是维护轻量索引并按需检索。类比人类认知中的"索引+检索"模式。
- **Compaction（压缩）**：在接近 context 限制时总结对话内容，保留架构决策和实现细节，丢弃冗余输出。
- **Structured Note-Taking**：agent 维护外部记忆文件（如 NOTES.md、to-do 列表），使多小时任务能跨 context 重置保持连贯。
- **Sub-Agent Architecture**：专门的 agent 在干净的 context window 中处理聚焦任务，向协调 agent 返回精简摘要（1,000-2,000 tokens）。

## 实践建议
1. **将 context 视为珍贵且有限的资源**：不是"能放多少就放多少"，而是"能用最少放多少"。每个 token 都应有明确的价值。
2. **System prompt 使用 XML tags 或 Markdown headers 组织**：清晰的结构帮助模型定位和利用 context 中的信息。
3. **最小化工具集**：如果 agent 在两个工具之间犹豫，这说明工具设计有问题。工具应该是 token 高效的，参数明确无歧义。
4. **用典型示例替代详尽的边界条件列表**：策划多样化的规范示例来展示期望行为，比穷举规则更有效。
5. **实施 Just-in-Time context 检索**：预加载索引信息（如 CLAUDE.md），但将详细数据的获取延迟到需要时通过工具检索。
6. **为长周期任务组合使用 compaction + note-taking + sub-agent**：三种策略协同作用，实现多小时甚至多天任务的连贯性。
7. **先用最强模型测试最简配置**：在添加复杂性之前，先验证简单方案的表现。

## 独到观点
这篇文章最独特的贡献在于**从 transformer 架构的底层原理出发论证 context 管理的必要性**——n² token 关系和 context rot 不是 bug 而是 feature 的代价。这种理论深度使文章的建议不仅仅是经验性的"什么管用"，而是有架构层面的"为什么管用"。Just-in-Time context retrieval 与人类认知的类比也非常有启发性——它暗示了好的 context engineering 应该模拟人类的信息管理方式而非简单地堆积信息。Goldilocks zone 的概念也为 system prompt 设计提供了一个非常有用的心理模型。

## 与其他文章的关联
- 这是对 [Anthropic: Building Effective Agents](06-anthropic-building-effective-agents.md) 的深化，从 agent 架构下沉到 context 管理层面。
- Context rot 概念与 [LangChain: Anatomy of Harness](04-langchain-anatomy-of-harness.md) 中的同名概念一致，且提供了更深入的理论解释。
- Compaction 和 structured note-taking 与 [Anthropic: Effective Harnesses](02-anthropic-effective-harnesses.md) 中的 `claude-progress.txt` 和 [Manus: Context Engineering](10-manus-context-engineering.md) 中的 context 管理策略相呼应。
- Just-in-Time retrieval 模式与 [OpenAI: Harness Engineering](01-openai-harness-engineering.md) 中 AGENTS.md 作为索引文件的策略一致。
- Sub-agent 架构与 [HumanLayer: Skill Issue](07-humanlayer-skill-issue.md) 中的 context firewall 概念对应。
- 与 [Fowler: Context Engineering for Coding](11-fowler-context-engineering-coding.md) 和 [HumanLayer: Advanced Context](12-humanlayer-advanced-context.md) 共同构成 context engineering 的三视角讨论。