# OpenEvals (LangChain)

> 仓库地址：https://github.com/langchain-ai/openevals
> 作者/组织：LangChain
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
LangChain 推出的开源 LLM 评测库，提供即插即用的评估器集合，专注于 LLM 应用（RAG、Agent、Chat）的生产级评测。

## 项目定位与架构
OpenEvals 定位为 LLM 应用开发者的评测工具箱，与 LangSmith 平台配合使用。架构设计简洁：每个评估器（evaluator）是一个接收 input/output/reference 的函数，返回标准化的 `EvalResult`。评估器分为几类：(1) **LLM-as-Judge**——使用 prompt template 让 LLM 评判输出质量；(2) **Heuristic**——基于规则的确定性检查（JSON 合法性、包含关键词等）；(3) **Embedding-based**——语义相似度评估；(4) **Composite**——组合多个评估器。

## 关键技术特性
- **预置 Prompt 模板**：提供经过调优的 judge prompt（正确性、有用性、连贯性等）
- **多模型 Judge 支持**：兼容 OpenAI、Anthropic、开源模型作为 judge
- **LangSmith 集成**：评测结果自动同步至 LangSmith 进行追踪和比较
- **类型安全**：完整的 TypeScript/Python 类型注解
- **RAG 专用评估器**：针对检索增强生成的 faithfulness、relevance 评估
- **Agent 轨迹评估**：评估 agent 的工具调用序列和决策质量

## 设计亮点与创新
1. **函数式设计**：每个评估器都是纯函数，易于组合和测试
2. **Prompt 版本管理**：judge prompt 经过系统性 A/B 测试优化
3. **与 LangGraph 协同**：原生支持评测 LangGraph agent 的执行轨迹
4. **开放 + 商业互补**：开源评估器 + LangSmith 商业平台的双层策略

## 局限性与风险
- 与 LangChain 生态绑定较深，独立使用需额外适配
- LLM-as-Judge 的成本随评测规模线性增长
- 预置 prompt 可能不适用于所有领域（需定制化）
- 相比 DeepEval 等竞品，benchmark 覆盖面较窄（侧重应用评测而非学术 benchmark）

## 与生态系统的关联
- 是 LangSmith 平台评测功能的开源核心
- 继承了 OpenAI Evals 的 Model-Graded 评测理念并现代化
- 与 DeepEval、TruLens 在 LLM 应用评测赛道直接竞争
- 与 LangGraph、LangServe 形成完整的 LLM 应用开发-评测闭环