# SWE-Bench Verified

> 原文链接：https://openai.com/index/introducing-swe-bench-verified/
> 作者/来源：OpenAI
> 阅读日期：2026-05-06

## 一句话总结
OpenAI 对 SWE-Bench 进行人工验证后发布的净化版本，过滤了原始数据中的噪声和不可解问题。

## 核心论点
- 原始 SWE-Bench 包含显著比例的标注错误和不可解问题
- 这些噪声导致模型得分被系统性低估
- 人工验证后的版本提供更可靠的能力对比基准
- Benchmark 质量控制与模型评估同样重要

## 关键概念
- **Verification Process**：人工检查每个 task 的可解性和评判标准正确性
- **Noise Filtering**：去除标注错误、不可解、评判标准有误的案例
- **Baseline Recalibration**：清洗后的分数更准确反映真实能力
- **Software Engineering Tasks**：真实 GitHub issue 的修复任务
- **End-to-end Evaluation**：从理解需求到生成正确 patch 的全流程

## 实践建议
1. 优先使用 Verified 版本获得更可靠的评估结果
2. 注意原始和 Verified 版本的分数不可直接比较
3. 软件工程能力评估应关注 patch 的正确性和完整性
4. 评估集的质量审计应成为标准实践

## 独到观点
"Verified"模式的推广说明社区意识到 benchmark 本身需要 QA——这是评估领域成熟的标志。

## 与其他文章的关联
- 与 SimpleQA Verified 共享"验证 benchmark 本身"的方法论
- 与 LiveCodeBench Pro 在代码能力评估上互补
- 评估噪声问题与 ACL robustness 论文的发现一致
- 为 Anthropic agent evals（Coding Agent）提供了标准 benchmark
