# NVIDIA Garak

> 仓库地址：https://github.com/NVIDIA/garak
> 作者/组织：NVIDIA
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
NVIDIA 开源的 LLM 安全红队测试框架，系统化地探测语言模型的漏洞，覆盖 prompt injection、信息泄露、毒性输出等多种攻击向量。

## 项目定位与架构
Garak（名称致敬星际迷航角色）定位为 LLM 的漏洞扫描器，类似于网络安全领域的 nmap 或 Metasploit。架构采用 Probe + Generator + Detector + Harness 四层设计：(1) **Probe**——定义攻击策略和恶意 prompt（100+ 内置）；(2) **Generator**——对接目标模型获取响应；(3) **Detector**——判断模型是否"中招"；(4) **Harness**——协调整个攻击-检测流水线。支持扫描报告生成。

## 关键技术特性
- **100+ 内置 Probe**：覆盖 prompt injection、jailbreak、data leakage、encoding attack 等
- **多模型后端**：支持 HuggingFace、OpenAI、Replicate、本地模型等
- **自动化报告**：生成结构化的安全扫描报告（JSON + HTML）
- **Plugin 架构**：易于添加新的攻击向量和检测方法
- **Calibration**：支持基线测试以减少误报
- **CI/CD 集成**：可嵌入部署流水线作为安全门禁

## 设计亮点与创新
1. **安全领域思维移植**：将传统网络安全的漏洞扫描方法论应用于 LLM
2. **攻击分类学**：系统化组织不同类型的 LLM 安全风险
3. **可复现的安全测试**：固定 seed + 版本化 probe 确保测试可比
4. **低门槛使用**：`python -m garak --model_type huggingface --model_name ... --probes all`

## 局限性与风险
- 攻击 probe 的更新速度可能跟不上新型 jailbreak 技术的演化
- 自动化检测可能有较高的假阳性率（需要人工验证）
- 对多模态模型（图像输入攻击）的支持有限
- 仅测试"是否能诱导不当输出"，不评估模型实际能力

## 与生态系统的关联
- 填补了 LLM 评测中"安全维度"的空白
- 与 DeepEval 的红队功能互补但更深入
- 与 OWASP LLM Top 10 等安全标准对齐
- 可作为 lm-evaluation-harness（能力评测）的安全补充
