# DeepEval (Confident AI)

> 仓库地址：https://github.com/confident-ai/deepeval
> 作者/组织：Confident AI
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
面向 LLM 应用开发者的开源评测框架，提供 14+ 预置评测 metric，采用类 pytest 接口设计，强调开发者友好和 CI/CD 集成。

## 项目定位与架构
DeepEval 定位为"LLM 应用的单元测试框架"，核心理念是让评测像写测试一样简单。架构包括：(1) **Metric 层**——预置 14+ 评测指标（Faithfulness、Answer Relevancy、Hallucination、Bias、Toxicity 等）；(2) **Test Case 层**——定义输入、实际输出、期望输出和上下文；(3) **Runner 层**——兼容 pytest 的执行引擎；(4) **Confident AI Platform**——可选的云端 dashboard 用于追踪和分析。

## 关键技术特性
- **14+ 预置 Metric**：覆盖 RAG（faithfulness、relevancy）、安全性（bias、toxicity）、通用质量
- **pytest 集成**：使用 `assert_test` 语法，自然融入 Python 测试工作流
- **Synthesizer**：自动从文档生成测试用例（类似 YourBench 的理念）
- **Conversational Evaluation**：支持多轮对话的评测
- **红队测试**：内置 adversarial attack 生成器用于安全评测
- **Confident AI Dashboard**：云端可视化评测历史和趋势

## 设计亮点与创新
1. **Developer-first UX**：pytest 风格接口极大降低了使用门槛
2. **G-Eval 实现**：实现了论文中的 G-Eval metric（LLM 评分 + 概率加权）
3. **DAG-based Metric**：复杂 metric 通过 DAG 组合多个子评估步骤
4. **CI/CD Native**：设计为 GitHub Actions 等 CI 流水线的一等公民

## 局限性与风险
- 免费版功能有限，高级分析需要 Confident AI 订阅
- LLM-as-Judge metric 的评测成本（API 调用费）随规模增长
- 部分 metric 实现的学术严谨性有待验证
- 与 LangChain 生态的集成不如 OpenEvals 原生

## 与生态系统的关联
- 与 OpenEvals（LangChain）在开发者评测工具赛道直接竞争
- 与 Phoenix（Arize）在可观测性方面有部分重叠
- 继承了 OpenAI Evals 的 Model-Graded 理念并大幅扩展
- Synthesizer 功能与 YourBench 的 benchmark 生成理念呼应
