# Anthropic: Harness Design for Long-Running Apps

> 原文链接：https://www.anthropic.com/engineering/harness-design-long-running-apps
> 作者/来源：Anthropic
> 阅读日期：2026-04-02

## 一句话总结
Anthropic 提出了受 GAN 启发的 Generator-Evaluator 多 agent 架构，通过分离创建与评估来解决长时间运行 agent 的 context 退化和自我评估偏差问题，实现了主观质量的可量化提升。

## 核心论点
文章聚焦于长时间运行 agent 的两个核心问题。第一是 **context 退化**：随着 context window 填满，模型的连贯性下降，部分模型甚至出现"context anxiety"（context 焦虑）——在接近感知到的 context 限制时过早结束工作。第二是**自我评估失败**：agent 会可靠地"表扬"自己的输出，即使质量平庸，尤其在没有二元验证机制的主观任务上。

为解决这些问题，作者设计了受 **GAN（生成对抗网络）** 启发的多 agent 系统，核心思想是**将创建和评估分离到不同的 agent 中**。这比让 generator 自我批评更有效，因为外部反馈更容易调优。在前端设计场景中，文章定义了四个可量化的评分维度：设计质量（视觉一致性）、原创性（避免通用 AI 模式）、技艺（排版、间距、色彩的技术执行）和功能性（独立于美观的可用性）。evaluator 使用 Playwright 与真实页面交互后再评分，经过5-15轮迭代，输出被推向了更独特、更少"AI味"的设计。

在全栈编码场景中，系统进一步扩展为三 agent 架构：**Planner**（将简短 prompt 扩展为详细规格）、**Generator**（使用 React/FastAPI/SQLite 技术栈迭代实现功能）和 **Evaluator**（使用 Playwright 进行端到端测试，并在编码前协商"sprint 合同"定义成功标准）。

## 关键概念
- **Generator-Evaluator Architecture**：受 GAN 启发的多 agent 架构，核心是分离创建和评估职责。Generator 专注生成，Evaluator 提供外部反馈，两者之间的张力推动质量提升。
- **Context Anxiety（context 焦虑）**：模型在接近 context window 限制时表现出的过早结束工作的倾向。这是长时间运行 agent 的固有挑战。
- **Sprint Contract（sprint 合同）**：Evaluator 在 Generator 开始编码前定义的成功标准，明确"什么算完成"。这防止了目标漂移和质量标准的模糊化。
- **Subjective Quality Metrics**：将主观质量（如设计好坏）分解为可量化的维度（设计质量、原创性、技艺、功能性），使 evaluator 能提供结构化反馈。
- **Harness Complexity vs Model Capability**：文章的一个关键发现——更新的模型（如 Opus 4.6）需要更少的 scaffolding，暗示 **harness 复杂度应随模型能力提升而降低**。

## 实践建议
1. **分离创建和评估职责**：不要让 agent 自我评估，设计独立的 evaluator agent 提供外部反馈。
2. **让 evaluator 与真实环境交互**：使用 Playwright 等工具让 evaluator 像用户一样测试，而非仅依赖代码分析。
3. **在编码前定义明确的成功标准**：通过"sprint 合同"机制防止目标漂移。
4. **将主观质量分解为可量化维度**：这使得反馈更具结构性和可操作性。
5. **定期重新评估 harness 的复杂度**：随着模型能力提升，之前必要的 scaffolding 可能变得多余，过度的 harness 反而增加成本（文中提到完整 harness 比简单方案贵20倍）。

## 独到观点
文章最独特的贡献在于两点。第一，**用 GAN 的对抗思想来架构多 agent 系统**，这是一个跨领域的类比创新。第二，**提出了 harness 复杂度应与模型能力成反比的观点**——这意味着今天精心设计的 harness 可能在下一代模型上变成不必要的负担。这个"harness 保质期"的概念在其他文章中很少被讨论。20倍成本差异（$200 vs $9）的数据也为"harness 投资回报率"的讨论提供了具体参考。

## 与其他文章的关联
- 与 [Anthropic: Effective Harnesses](02-anthropic-effective-harnesses.md) 是姊妹篇，本文更侧重架构设计和质量评估，前者更侧重跨 session 的进度管理。
- Generator-Evaluator 模式与 [OpenAI: Harness Engineering](01-openai-harness-engineering.md) 中的 peer review（agent 验证其他 agent 的 PR）理念一致。
- "context anxiety" 的概念与 [Anthropic: Context Engineering](09-anthropic-context-engineering.md) 中关于 context 管理的讨论直接相关。
- Evaluator 使用 Playwright 的实践与 [Anthropic: Effective Harnesses](02-anthropic-effective-harnesses.md) 中推荐的 Puppeteer MCP 端到端测试策略相呼应。
- "harness 复杂度应随模型能力降低"的观点与 [Anthropic: Building Effective Agents](06-anthropic-building-effective-agents.md) 中"从简单开始"的哲学一致。
