# Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

> 原文链接：https://arxiv.org/abs/2404.18796
> 作者/来源：Cohere
> 阅读日期：2026-05-06

## 一句话总结
Cohere 提出用多模型"陪审团"替代单一"法官"进行 LLM 评估，通过多样性降低个体偏见。

## 核心论点
- 单一 judge 模型的偏见会系统性地影响评估结果
- 多个不同模型组成的"陪审团"可以通过多样性抵消个体偏见
- 陪审团评估与人类偏好的对齐度优于任何单一 judge

## 关键概念
- **Panel of Judges (Jury)**：多模型陪审团
- **Diversity Benefit**：不同模型的偏见方向不同，聚合后趋向公平
- **Jury Size**：陪审团规模与性能/成本的权衡
- **Voting Mechanism**：多数投票 vs. 加权投票 vs. 共识
- **Cost-Effectiveness**：多个小模型 vs. 单个大模型的性价比

## 实践建议
- 使用 3-5 个不同模型族的 judge 组成陪审团
- 小模型陪审团可能优于单个大模型 judge（且成本更低）
- 跟踪陪审团内部的一致性作为评估可信度的信号
- 分歧大的案例标记为"有争议"并酌情人工审核

## 独到观点
- 来自 Cohere（模型提供商）的实用方案
- "Jury"隐喻精确：评估是"审判"而非"科学测量"——主观性不可消除

## 与其他文章的关联
- 与 "Language Model Council" 高度相关：同一理念的不同命名
- 与 "ChatEval: Multi-Agent Debate" 相关：多 agent 协作评估
- 与 MixEval 相关：Wisdom of Crowd 原理
- 与 "Inconsistent and Biased Evaluators" 相关：diversity 是对抗 bias 的策略