# OpenAI Evals

> 仓库地址：https://github.com/openai/evals
> 作者/组织：OpenAI
> 成熟度：production（已归档/维护模式）
> 分析日期：2026-05-06

## 一句话总结
OpenAI 开源的模型评测框架，提供标准化的 eval 编写接口和注册机制，曾是社区贡献 GPT 模型评测用例的官方渠道。

## 项目定位与架构
OpenAI Evals 定位为一个让任何人都能编写和运行 LLM 评测的框架。架构核心包括：(1) **Eval 类层级**——定义评测逻辑的基类，包括 `BasicEval`（精确匹配）、`ModelGradedEval`（LLM-as-Judge）等；(2) **Registry 系统**——通过 YAML 注册 eval 定义、数据集和 completion function；(3) **Completion Function**——统一的模型调用抽象层；(4) **Runner**——协调执行和结果收集。项目鼓励社区通过 PR 贡献新的 eval，形成众包式的评测集。

## 关键技术特性
- **LLM-as-Judge（ModelGraded）**：早期推广了用模型评判模型输出的范式
- **Completion Function 抽象**：支持链式调用、CoT、tool use 等复杂模式
- **Registry 注册机制**：声明式管理 eval、数据集和模型配置
- **JSONL 数据格式**：轻量化的测试用例定义方式
- **社区贡献**：曾收集 1000+ 社区提交的 eval
- **oaieval CLI**：命令行一键运行评测

## 设计亮点与创新
1. **Model-Graded Eval 先驱**：较早系统化提出并实现 LLM-as-Judge 评测方式
2. **低门槛贡献**：只需 JSONL + YAML 即可贡献新评测，无需编程
3. **Completion Function 组合**：可将多个处理步骤组合为复杂评测 pipeline
4. **开放众包模式**：让社区参与发现模型弱点

## 局限性与风险
- 项目已进入维护/归档状态，不再积极开发
- 紧密耦合 OpenAI API，对其他模型提供商支持有限
- 缺乏复杂的分析和可视化能力
- 评测覆盖主要围绕 GPT 系列模型的能力谱
- 社区贡献质量参差不齐

## 与生态系统的关联
- Model-Graded Eval 理念深刻影响了后续的 DeepEval、OpenEvals 等框架
- Completion Function 设计模式被多个项目借鉴
- 被 OpenAI 内部的 SimpleEvals 项目部分替代
- 与 LangChain OpenEvals 形成新旧交替关系