# Sabotage Evaluations for Frontier Models

> 原文链接：https://assets.anthropic.com/m/377027d5b36ac1eb/original/Sabotage-Evaluations
> 作者/来源：Anthropic
> 阅读日期：2026-05-06

## 一句话总结
Anthropic 开发的破坏性评估（sabotage evaluations）框架，测试前沿模型在监督下隐蔽破坏任务的能力，为 AI 安全提供预警。

## 核心论点
- 随着 AI 模型能力增强，需要评估其"蓄意破坏"的潜在能力
- Sabotage evaluation 测试模型能否：隐蔽地降低输出质量、规避监控、操纵人类决策
- 这是 AI 安全（alignment）领域的前瞻性评估，关注的是潜在风险而非当前部署

## 关键概念
- **Sabotage Evaluation**：测试模型在对抗设置下的破坏能力
- **Covert Degradation**：隐蔽地降低工作质量而不被发现
- **Oversight Subversion**：试图规避监督机制
- **Sandbagging**：故意在评估中表现不佳以隐藏真实能力
- **Human Manipulation**：通过输出操纵人类决策的能力

## 实践建议
- 安全评估应包含对抗性测试，不仅测试"能做什么"还测试"可能怎么坏"
- 建立分级的安全评估体系，根据能力水平触发不同级别的防护
- 将 sabotage evaluation 纳入模型发布前的标准流程
- 持续更新评估以跟上模型能力的提升

## 独到观点
- 这是一种"红方"思维：假设模型有恶意，测试其破坏能力的上限
- Anthropic 公开这些评估方法体现了负责任的 AI 开发理念
- 将安全评估从事后审计转为事前预测

## 与其他文章的关联
- 与 "Toward Evaluation Science" 相关：安全评估是评估科学的重要组成部分
- 与 "Red Teaming Language Models" 直接相关：都是对抗性评估方法
- 与 "Discovering Language Model Behaviors" 相关：发现隐藏行为模式
