# Discovering Language Model Behaviors

> 原文链接：https://arxiv.org/abs/2212.09251
> 作者/来源：arXiv 2022
> 阅读日期：2026-05-06

## 一句话总结
提出自动化发现语言模型行为模式的方法，通过系统性探索而非预设测试来发现模型的能力和缺陷。

## 核心论点
- 传统评估是"验证假设"式的：先假设模型应该能做什么，再测试。但这无法发现未预期的行为
- 本文提出"发现"式评估：系统性地探索模型的行为空间，发现新的能力和失败模式
- 使用 LLM 生成测试用例（自动化探索），再对发现的行为进行分类和聚类
- 这种方法可以发现人类评估者可能忽略的系统性模式
- 类似于科学中的"观察-假设-验证"循环，而非仅做验证性实验

## 关键概念
- **Behavior Discovery**：自动发现模型的行为模式，包括能力和缺陷
- **Exploratory Evaluation**：探索性评估，不预设被测试的内容
- **Automated Test Generation**：用模型生成测试用例以探索行为空间
- **Behavior Clustering**：将发现的行为模式进行聚类，找出系统性模式
- **Emergent Behaviors**：模型训练中未明确设计但涌现出的行为

## 实践建议
- 在常规 benchmark 评估之外，加入探索性测试以发现未知的失败模式
- 用一个 LLM 生成另一个 LLM 的测试用例，形成对抗性发现
- 对发现的行为进行聚类和标签化，建立模型的"行为图谱"
- 将发现的失败模式转化为回归测试，防止后续版本退化
- 特别关注边界条件和罕见输入模式

## 独到观点
本文将评估从"考试"模式转向"科学探索"模式。传统 benchmark 像期末考试——测已知的内容；行为发现像科学实验——探索未知。后者对理解和改进模型可能更有价值。

## 与其他文章的关联
- 与 "Report Cards: Qualitative Evaluation" 互补：report card 需要先发现行为才能描述
- 与 "Red Teaming Language Models" 相关：red teaming 是行为发现在安全领域的应用
- 与 "ALLURE: Auditing LLM Evaluation" 相关：审计评估本身也需要发现评估行为的模式
