# ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

> 原文链接：https://arxiv.org/abs/2308.07201
> 作者/来源：（学术论文，2023）
> 阅读日期：2026-05-06

## 一句话总结
通过多个 LLM agent 之间的辩论来提升评估质量，让评估从"独断"走向"协商"。

## 核心论点
- 单个 LLM judge 的判断可能受初始偏见主导
- 多 agent 辩论可以通过相互质疑和补充来纠正个体偏见
- 辩论过程产生的推理链提供了评估的可解释性

## 关键概念
- **Multi-Agent Debate**：多个 LLM agent 对评估结果进行辩论
- **Deliberation**：通过多轮对话达成评估共识
- **Devil's Advocate**：设置"反方"角色强制考虑不同视角
- **Consensus Building**：从分歧走向共识的过程
- **Debate Transcript**：辩论记录作为评估理由的解释

## 实践建议
- 对重要/有争议的评估使用多 agent 辩论
- 设置不同角色（支持方、反对方、总结方）以增加辩论质量
- 辩论轮数通常 2-3 轮即可收敛
- 保留辩论记录用于审计和改进

## 独到观点
- 将"辩论出真知"的认识论引入 AI 评估
- 辩论过程比最终结论可能更有价值——它揭示了评估的难点和分歧点

## 与其他文章的关联
- 与 "Language Model Council" 相关：多 agent 评估的不同实现
- 与 "Replacing Judges with Juries" 相关：多声音>单一声音
- 与 "Learning to Plan & Reason" 相关：辩论是一种结构化推理
- 与 "Incentivizing Agentic Reasoning" 相关：辩论是 agentic 行为的一种形式
