# Framework for Auditing LLMs with Human-in-Loop

> 原文链接：https://arxiv.org/abs/2402.09346
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
提出结合人类专家的 LLM 审计框架，系统化地检测和评估模型在部署后的行为问题。

## 核心论点
- 纯自动化评估无法覆盖所有风险场景，需要 human-in-the-loop
- 审计（Auditing）不同于评估（Evaluation）——前者更关注合规性和风险发现
- 人类专家在审计中的角色是提供判断力和发现自动化遗漏
- 审计框架需要可重复、可追溯、有标准

## 关键概念
- **Auditing vs Evaluation**：审计更关注合规和风险，评估更关注能力
- **Human-in-the-Loop**：人类专家参与的关键节点和方式
- **Red-teaming Integration**：将红队测试纳入审计流程
- **Audit Trail**：可追溯的审计记录
- **Risk Taxonomy**：系统化的风险分类体系
- **Continuous Auditing**：部署后的持续监控和审计

## 实践建议
1. 在评估流程中明确人类参与的环节和标准
2. 红队测试应作为审计的标准步骤
3. 建立完整的审计记录便于追溯和问责
4. 定义明确的风险分类指导审计重点
5. 审计频率应与模型更新和风险等级匹配

## 独到观点
将"审计"从合规负担重新定义为质量保障工具——人类专家不是瓶颈，而是发现自动化评估盲区的关键资源。

## 与其他文章的关联
- 与 DeepMind Frontier Safety Framework 的安全评估流程互补
- 人类角色讨论与 Sebastian Raschka 四种方法中 Human Evaluation 相关
- 持续审计思路与 InfoQ podcast 的 continuous evaluation 一致
- Red-teaming 部分与 TrustLLM 的 Safety 维度相关
