# Garak: LLM Red-Teaming Toolkit (Nvidia)

> 仓库地址：https://github.com/NVIDIA/garak
> 作者/组织：Nvidia
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
Nvidia 开源的 LLM 安全性评估（红队测试）工具，系统性地探测模型的安全漏洞和有害输出风险。

## 项目定位与架构
- 专注于 LLM 安全性评估（red-teaming / vulnerability scanning）
- 类比传统安全领域的 penetration testing 工具
- 提供多种攻击策略（probes）和检测器（detectors）
- 支持多种模型接口和输出格式

## 关键技术特性
- **Probes**：多种攻击策略——prompt injection、jailbreak、toxicity elicitation 等
- **Detectors**：检测模型输出中的有害内容
- **Generators**：对接不同的 LLM 后端
- **Buffs**：对攻击 prompt 进行变换增强（如编码、同义替换）
- **Reporting**：生成结构化的安全评估报告
- **Extensible**：支持自定义 probe 和 detector

## 设计亮点与创新
- 将网络安全的"漏洞扫描"思路引入 LLM 评估
- 系统化覆盖多种攻击面，不遗漏
- Buff 机制自动化生成攻击变体，提升测试覆盖率
- 命名致敬《星际迷航》（GARAK = Cardassian tailor/spy）

## 局限性与风险
- 安全评估本身需要负责任使用（dual-use concern）
- 攻击策略需要持续更新以跟上新的 jailbreak 技术
- 自动化检测可能存在漏检（false negative）
- 不同模型对同类攻击的表现差异需要专业解读

## 与生态系统的关联
- 与 SCORE (Nvidia) 在安全评估维度互补
- 补充了 lm-evaluation-harness 在安全性方面的空白
- 与 Patronus Enterprise Scenarios 中的安全性评估相关
- 对 AI safety alignment 研究有工具支持价值
