# Product Evals in Three Simple Steps

> 原文链接：https://eugeneyan.com/writing/product-evals/
> 作者/来源：Eugene Yan
> 阅读日期：2026-05-06

## 一句话总结
将产品级 LLM 评估简化为三步：标注数据、对齐 LLM 评估器、运行评估流水线，强调实用性和可扩展性。

## 核心论点
- 有效的产品评估不需要复杂框架，三个明确步骤即可落地
- Binary pass/fail 标签优于数值量表，因为"强制清晰决策边界"能提高标注者一致性
- 真正的价值在于"在数百个样本上保持一致判断，而不被人工审核瓶颈所限制"
- 人类表现（而非完美）才是现实的比较基准

## 关键概念
- **Step 1 - Label Some Data**：从 200+ 样本中标注 50-100 个失败案例；用低能力模型生成有机失败而非人造缺陷
- **Step 2 - Align LLM-Evaluators**：数据 75/25 拆分为 dev/test；为每个维度单独构建 evaluator 而非一个"God Evaluator"；用 precision、recall、Cohen's Kappa 衡量
- **Step 3 - Run Evaluation Harness**：集成到实验流水线；运行 200+ 样本达到统计置信度
- **Positional Bias**：对比评估时交换顺序运行两次以检测位置偏差

## 实践建议
1. 起步只需 50-100 个标注样本，不必追求大数据集
2. 每个评估维度独立构建 evaluator，避免单一模型承担所有判断
3. 200+ 样本是实现统计显著性的最低要求
4. 导出简洁格式的指标便于利益相关者沟通
5. 用低能力模型（而非手工构造）生成失败样本更真实

## 独到观点
"God Evaluator" 的反模式——试图让一个 LLM 同时评估所有维度会导致质量下降，应按维度拆分。这与软件工程中"单一职责原则"异曲同工。

## 与其他文章的关联
- 与 Anthropic 的 agent evals 文章互补：本文更适用于非 agent 的产品级 LLM 应用
- Cohen's Kappa 衡量方法可关联 "LLM-as-a-Judge" 中的 inter-rater reliability
- 与 Hamel 的文章共享"从失败案例出发"的哲学