# ChatEval: Multi-Agent Debate Evaluation

> 原文链接：https://arxiv.org/abs/2308.07201
> 作者/来源：arXiv 2023
> 阅读日期：2026-05-06

## 一句话总结
提出 ChatEval 框架，通过多个 LLM agent 之间的辩论来提升评估质量，利用观点碰撞发现单一 judge 可能忽略的问题。

## 核心论点
- 单一 LLM Judge 的判断可能片面或遗漏重要维度
- 多个 agent 通过结构化辩论（debate）可以暴露不同视角和潜在问题
- 辩论过程模拟人类专家小组的评审模式：提出观点、质疑反驳、达成共识
- 实验表明辩论机制比简单的多 judge 投票效果更好——因为辩论过程中 agent 会修正自己的错误
- 辩论轮数不需要很多：通常 2-3 轮即可达到收益饱和

## 关键概念
- **Multi-Agent Debate**：多个 LLM agent 就评估结果进行辩论
- **Perspective Diversity**：通过不同角色设定确保观点多样性
- **Consensus Building**：辩论后通过投票或综合达成最终判断
- **Self-Correction through Debate**：agent 在辩论中被挑战后修正错误判断
- **Structured Discussion Protocol**：预设的辩论流程和规则

## 实践建议
- 为每个 agent 分配不同的评估视角（如：关注准确性的、关注创意性的、关注安全性的）
- 辩论 prompt 设计要鼓励质疑和反驳，而非简单同意
- 2-3 轮辩论通常足够；更多轮可能导致过度妥协
- 适合高风险评估任务：成本高但判断更可靠
- 记录辩论过程作为评估理由（可解释性 bonus）

## 独到观点
辩论机制的价值不仅在于更好的最终判断，更在于辩论过程本身揭示了评估的复杂性和多面性。类比学术同行评审：单个审稿人可能有盲区，多人讨论后的结论更可靠。

## 与其他文章的关联
- 与 "Language Model Council" 和 "Replacing Judges with Juries" 相关但更进一步：投票是静态集成，辩论是动态交互
- 与 "Incentivizing Agentic Reasoning" 互补：辩论式评估也是一种 agentic 模式
- 与 "Learning to Plan & Reason" 相关：辩论可以看作一种外部化的推理过程
