# Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

> 原文链接：https://arxiv.org/abs/2306.05685
> 作者/来源：Lianmin Zheng 等 (LMSYS)
> 阅读日期：2026-05-06

## 一句话总结
LMSYS 团队的开创性工作，提出 MT-Bench 和 Chatbot Arena 两个平台来验证 LLM-as-Judge 的有效性，奠定了该领域的基础。

## 核心论点
- GPT-4 作为 judge 与人类的一致性超过 80%，接近人类间的一致性
- Chatbot Arena 通过众包 pairwise comparison 建立了可靠的模型排名
- MT-Bench 提供了多轮对话评估的标准化 benchmark
- LLM-as-Judge 是一种可行且经济的评估范式

## 关键概念
- **MT-Bench**：多轮对话质量评估的标准 benchmark
- **Chatbot Arena**：基于用户投票的模型对战平台
- **Elo Rating**：从 pairwise comparison 推导模型排名
- **Agreement Rate**：LLM judge 与人类判断的一致率
- **Position Bias**：judge 偏好特定位置（已识别并提出缓解方案）

## 实践建议
- GPT-4 级别模型作为 judge 在大多数场景下已足够可靠
- 使用 pairwise comparison 而非绝对评分可获得更稳定结果
- Chatbot Arena 的排名可作为其他评估方法的校准标准
- 注意 position bias 并通过位置交换来缓解

## 独到观点
- 这是 LLM-as-Judge 领域的"奠基论文"，定义了研究议程
- Chatbot Arena 的设计将"学术评估"和"用户体验"打通

## 与其他文章的关联
- 与 LLM-as-Judge Survey 相关：本文是 survey 的核心引用
- 与 "Elo Uncovered" 相关：对 Arena Elo 系统的深入分析
- 与 MixEval 相关：MixEval 以 Arena 排名为校准目标
- 与 "Style Over Substance" 相关：Arena 投票可能偏好风格
