# Replacing Judges with Juries: Evaluating LLM Generations

> 原文链接：https://arxiv.org/abs/2404.18796
> 作者/来源：Cohere
> 阅读日期：2026-05-06

## 一句话总结
Cohere 提出用多个 LLM 组成的"陪审团"（jury）替代单一"法官"（judge），通过集成多模型判断提升评估的可靠性和公平性。

## 核心论点
- 单一 LLM Judge 的偏差是不可避免的，且不同模型有不同偏差方向
- "陪审团"通过多样化组合和投票机制可以相互抵消偏差
- 实验发现：由 3-7 个中等规模模型组成的 jury 可以匹配甚至超过单一大模型 judge 的表现
- Jury 的组成很重要：成员之间的多样性比单个成员的强度更关键
- 成本方面：多个小模型并行调用可能比单次大模型调用更经济

## 关键概念
- **Jury System**：多模型集成评估系统
- **Diversity > Strength**：评估团队的多样性比个体强度更重要
- **Ensemble Voting**：多数投票、加权投票、排序聚合等集成策略
- **Cost-Performance Trade-off**：成本与性能的权衡分析
- **Bias Cancellation**：不同模型的偏差相互抵消

## 实践建议
- 组建 jury 时选择不同系列的模型（不同训练数据、不同 RLHF 策略）
- 基础配置：3 个模型 + 多数投票；更可靠配置：5-7 个模型
- 对于不一致的案例（jury 内部分歧大），标记为需要人工审核
- 利用 jury 内部一致性作为评估置信度的代理指标
- 考虑异步并行调用以控制延迟

## 独到观点
Cohere 的实验发现暗示了一个"民主化"趋势：评估能力可以通过集体智慧实现，不需要依赖最贵的闭源模型。这对中小企业的评估实践有直接的经济意义。

## 与其他文章的关联
- 与 "Language Model Council" 高度相关：一个用 jury 隐喻，一个用 council 隐喻，核心思想一致
- 与 "Inconsistent and Biased Evaluators" 互补：jury 是应对单一 judge 偏差的方案
- 与 "Efficient Inference for Noisy Judge" 有交叉：jury 的成本优化也是重要问题
