# Elo Uncovered: Robustness and Best Practices in Language Model Evaluation

> 原文链接：https://arxiv.org/abs/2311.17295
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
深入分析 Elo 评分系统在 LLM 评估（如 Chatbot Arena）中的鲁棒性问题，提出最佳实践。

## 核心论点
- Elo 评分系统在 LLM 评估中被广泛使用但其假设常常被违反
- Elo 排名对对战顺序、对手选择、初始值等因素敏感
- 需要特定的最佳实践来提高 Elo-based 排名的可靠性

## 关键概念
- **Elo Rating System**：基于配对对比的评分系统（源自国际象棋）
- **Transitivity Assumption**：A>B, B>C → A>C（在 LLM 中常被违反）
- **Order Effects**：对战序列的顺序影响最终评分
- **Bootstrap Confidence Intervals**：通过重采样估计 Elo 评分的不确定性
- **Bradley-Terry Model**：Elo 的理论基础模型

## 实践建议
- 报告 Elo 评分时附带置信区间
- 使用足够多的对战次数以获得稳定的评分
- 注意 intransitivity：排名在子任务间可能不一致
- 考虑使用 Bradley-Terry 模型的扩展（如多维 BT）以捕捉能力差异

## 独到观点
- Elo 系统在国际象棋中有效因为棋力大致是一维的，但 LLM 能力是多维的
- Chatbot Arena 的成功部分基于 Elo 的"虚假简洁性"

## 与其他文章的关联
- 与 "Ranking Unraveled" 相关：Elo 是一种特定的排名 recipe
- 与 "Trade-Offs Between Diversity and Stability" 相关：Elo 的稳定性问题
- 与 "Adding Error Bars" 直接相关：Elo 评分需要误差条
- 与 MixEval 相关：MixEval 使用 Arena 作为校准目标
