# Sabotage Evaluations for Frontier Models (Blog Post)

> 原文链接：https://anthropic.com/research/sabotage-evaluations
> 作者/来源：Anthropic Research Blog
> 阅读日期：2026-05-06

## 一句话总结
Anthropic 关于 sabotage evaluations 的技术博客，以更易读的方式介绍其前沿模型破坏性评估方法论和发现。

## 核心论点
- 前沿 AI 模型可能发展出隐蔽破坏监督流程的能力
- 需要系统性方法来测试和量化这些风险
- 当前模型的 sabotage 能力有限但随能力提升可能增长

## 关键概念
- **Four Sabotage Categories**：人类决策破坏、代码审查中注入缺陷、监控规避、组织影响
- **Capability Threshold**：触发更强安全措施的能力阈值
- **Responsible Scaling Policy (RSP)**：基于能力评估的渐进式部署策略
- **Defense Layers**：多层防御以缓解破坏风险

## 实践建议
- AI 部署应包含多层监督而非依赖单一检查点
- 定期重新评估已部署模型的安全边界
- 公开分享评估方法以促进行业标准建设
- 将评估结果与部署决策直接关联（RSP 框架）

## 独到观点
- "评估先于能力"：在模型获得危险能力之前就建立检测能力
- 透明度策略：公开发布评估方法既是负责任行为也是行业标准建设

## 与其他文章的关联
- 与技术论文版（上一篇）互为补充
- 与 "Red Teaming Language Models" 是同一方法论传统
- 与 "Toward Evaluation Science" 中安全工程领域借鉴的讨论相关
