# Red Teaming Language Models

> 原文链接：https://arxiv.org/abs/2202.03286
> 作者/来源：Anthropic (Ethan Perez 等)
> 阅读日期：2026-05-06

## 一句话总结
Anthropic 提出使用 LLM 自动化 red teaming（红队测试）来发现语言模型的安全漏洞和有害输出模式，实现可扩展的安全评估。

## 核心论点
- 人工 red teaming 成本高且覆盖不全，需要自动化方法
- 使用一个 LLM（red team model）生成攻击性输入，测试另一个 LLM（target model）是否会产生有害输出
- 这本质上是一种"LLM-as-Adversarial-Judge"——用模型评估模型的安全边界
- 自动化 red teaming 发现了大量人类测试者未想到的攻击向量
- 方法可以规模化并持续运行，随模型更新持续监控安全性
- "以毒攻毒"：用 AI 的能力来发现 AI 的弱点

## 关键概念
- **Red Teaming**：模拟对抗性攻击以发现系统漏洞的安全测试方法
- **Automated Red Teaming**：使用 LLM 自动生成攻击性测试输入
- **Adversarial Prompts**：设计来触发有害输出的对抗性提示
- **Attack Diversity**：确保测试覆盖多种攻击类型和策略
- **Safety Boundary**：模型应该拒绝的内容边界

## 实践建议
- 在模型部署前使用自动化 red teaming 进行安全评估
- 使用自动红队作为人工红队的补充而非替代
- Red team model 应该多样化：使用不同策略和角度的攻击
- 建立攻击成功率的 baseline，用于追踪安全改进
- 将成功的攻击案例转化为安全训练数据（RLHF 的负例）
- 定期运行红队测试以检测新版本的退化

## 独到观点
Red teaming 是 LLM-as-Judge 的一个特殊且重要的应用：一个 LLM 判断另一个 LLM 的输出是否安全。但这里的"judge"不是评估质量，而是探测边界——这需要创造性而非仅仅判断力。红队测试本质上是一种特殊形式的 LLM-as-Judge：判断的是"安全边界"。

## 与其他文章的关联
- 与 "Judging the Judges" 方法论相通：red teaming judge 本身也是一种验证
- 与 "Discovering Language Model Behaviors" 高度相关：red teaming 是行为发现在安全领域的应用
- 与 "ALLURE: Auditing LLM Evaluation" 相关：都在探测系统的弱点
