# Language Model Council: Democratically Benchmarking

> 原文链接：https://arxiv.org/abs/2406.08598
> 作者/来源：arXiv 2024
> 阅读日期：2026-05-06

## 一句话总结
提出"语言模型议会"（Language Model Council）概念，通过多个 LLM 组成的"民主"投票机制来替代单一 judge，实现更公平和鲁棒的评估。

## 核心论点
- 单一 LLM Judge 存在系统性偏差，使用多个不同模型组成"议会"可以缓解这一问题
- 类比民主制度：单一法官可能有偏见，陪审团/议会通过多数决更可能公正
- 议会成员的多样性很重要：应选择不同系列、不同规模、不同训练方式的模型
- 通过 social choice theory（社会选择理论）的方法聚合多个 judge 的投票
- 实验表明议会机制在公平性和鲁棒性上优于单一 judge，尤其是在评估议会成员自身时

## 关键概念
- **Language Model Council**：多 LLM 组成的评估委员会
- **Democratic Voting**：通过投票聚合多个 judge 的意见
- **Diversity of Judges**：确保 judge 组合的多样性以避免同质偏差
- **Social Choice Theory**：用社会选择理论的投票规则（Borda count, Condorcet）聚合偏好
- **Self-Enhancement Mitigation**：通过多 judge 投票降低 self-enhancement bias

## 实践建议
- 使用至少 3-5 个不同的模型组成评估议会
- 确保议会成员来自不同模型系列（如 GPT + Claude + Gemini + 开源）
- 使用加权投票时，权重应基于各模型在已知 benchmark 上的表现
- 当评估对象是议会成员之一时，该成员应回避投票

## 独到观点
将政治学的民主理论引入 AI 评估领域是一个创新性的跨学科思路。这不仅解决了技术问题（偏差），还引发了哲学思考：AI 评估标准应该由谁来制定？是一个"独裁"模型还是多模型的"民主协商"？

## 与其他文章的关联
- 与 "Replacing Judges with Juries" 高度相关：都是多 judge 集成的思路
- 与 "ChatEval: Multi-Agent Debate" 互补：议会是投票制，ChatEval 是辩论制
- 与 "Inconsistent and Biased Evaluators" 相关：议会机制是应对偏差的方案之一
