# Quantifying Infrastructure Noise in Agentic Coding Evals：量化 Agent 编码评估中的基础设施噪声

> 原文链接：https://www.anthropic.com/engineering/infrastructure-noise
> 作者/来源：Gian Segato（贡献者：Nicholas Carlini, Jeremy Hadfield, Mike Merrill, Alex Shaw）/ Anthropic
> 阅读日期：2026-04-02

## 一句话总结
通过实验证明基础设施配置对 agentic coding benchmark 分数有显著影响（Terminal-Bench 2.0 上最高达 6 个百分点的差异），呼吁将资源配置作为与 prompt 格式和采样温度同等重要的实验变量。

## 核心论点

文章揭示了一个被广泛忽视但至关重要的问题：与静态 benchmark 不同，agentic coding evaluation 依赖运行时环境——模型在其中编写代码、执行测试、迭代修复。这意味着基础设施不再是被动容器，而是**问题求解过程的有机组成部分**。基础设施配置的差异可能导致 benchmark 分数产生显著变化，而这些变化反映的是硬件差异而非模型能力差异。

研究团队在 Terminal-Bench 2.0 上测试了六种资源配置，保持模型（Claude）、harness 和 task set 不变。关键发现是存在一个**3x 阈值效应**：在资源配置低于 3 倍规格时，额外资源主要修复可靠性问题（如瞬态内存尖峰）；超过 3 倍后，资源开始**主动赋能新的问题求解策略**——agent 可以安装重量级依赖、启动昂贵进程、运行内存密集型测试套件。这意味着"模型能力"和"基础设施行为"之间的边界远比单一 benchmark 分数暗示的更加模糊。

研究还在 SWE-bench 上进行了交叉验证，发现效果更小但一致（1x 到 5x 仅差 1.54 个百分点），这与 SWE-bench 较低的资源密集度一致。

## 关键概念

- **Infrastructure Noise（基础设施噪声）**：由运行环境差异引入的 benchmark 分数波动，包括集群健康状况、硬件规格、并发级别、出口带宽和 API 延迟等因素。
- **3x Threshold（3 倍阈值）**：资源配置的关键拐点。低于此值时，增加资源主要减少基础设施错误；高于此值时，资源差异开始影响 agent 的问题求解策略。
- **Infrastructure Error Rate（基础设施错误率）**：从严格配置（1x）的 5.8% 单调下降到无上限配置的 0.5%。
- **Guaranteed Allocation vs Hard Kill Threshold**：建议为每个 task 同时指定保证分配量和硬性终止阈值，并校准两者之间的带宽。
- **Confounders（混淆因素）**：基础设施变异性引入的不仅是统计噪声，还有系统性混淆因素，可能导致对模型能力的误判。

## 实践建议
1. **对 eval 开发者**：为每个 task 同时指定保证资源分配和硬性上限，校准两者使分数落在噪声范围内。3 倍上限是一个好的平衡点
2. **对 benchmark 消费者**：对排行榜上低于 3 个百分点的差异保持怀疑，直到 eval 配置被文档化并匹配
3. **对 AI 实验室**：将资源配置作为一等实验变量，与 prompt 格式、采样温度一样严格记录
4. 在比较不同模型的 benchmark 分数时，确保基础设施配置完全一致
5. 报告 benchmark 结果时，必须附带完整的基础设施配置信息
6. 考虑在多种资源配置下运行 eval 以量化基础设施对结果的敏感度

## 独到观点
文章的独特贡献在于将**"基础设施配置"从 eval 的背景条件提升为一等实验变量**。在 agent benchmark 竞争日益激烈的背景下，这一发现具有重要的现实意义——排行榜上的微小领先可能反映的是"更强的硬件"或测量时机，而非真正的模型能力差异。3x 阈值的发现尤其精到：它不仅量化了噪声的幅度，还揭示了资源从"修复可靠性"到"赋能新策略"的质变点。Bayesian network fitting 的具体案例（agent 试图安装完整的 Python 数据科学栈导致内存耗尽）生动展示了基础设施如何从"不可见"变为"决定性"因素。

## 与其他文章的关联
- 直接补充 [Anthropic: Demystifying Evals](29-anthropic-demystifying-evals.md) 中关于 eval 非确定性和 evaluation harness 的讨论
- 为 [OpenHands: Evaluating Agent Skills](28-openhands-evaluating-skills.md) 中的 skill 评估增加了一个重要注意事项：基础设施差异可能是 skill 效果不一致的原因之一
- [LangChain: Evaluating Deep Agents](31-langchain-evaluating-deep-agents.md) 在评估深度 agent 时也需要考虑本文揭示的基础设施噪声问题
- 与 [OpenAI: Eval Skills](27-openai-eval-skills.md) 中的确定性 grader 设计相关——grader 需要区分基础设施失败和 agent 能力不足
- [12-Factor Agents](25-humanlayer-12-factor-agents.md) 中"Compact Errors into Context"原则在基础设施错误场景下尤为重要
