# Ranking Unraveled: Recipes for LLM Rankings

> 原文链接：https://arxiv.org/abs/2411.14483
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
解构 LLM 排名的构建过程，提供不同排名"配方"（recipes）并分析各配方对最终排名的影响。

## 核心论点
- LLM 排名不是客观事实而是一系列方法论选择的产物
- 不同的排名"配方"——包括任务选择、指标聚合、统计处理——会产生截然不同的结果
- 需要透明化排名构建过程，使用户理解排名背后的假设

## 关键概念
- **Ranking Recipe**：构建排名时的一系列方法论选择的组合
- **Task Selection Effect**：任务集合的选择对排名的决定性影响
- **Aggregation Methods**：均值、中位数、加权聚合等不同策略
- **Normalization**：不同任务分数标准化方式的影响
- **Rank Correlation**：不同配方产生的排名间的相关性

## 实践建议
- 公开排名时应明确报告使用的"配方"
- 提供多种配方下的排名以展示结果的敏感性
- 用户应根据自己的使用场景选择最相关的排名配方
- 不要将排名视为模型的固有属性

## 独到观点
- "Recipe"隐喻很精确：排名如同烹饪，原料（数据）相同但配方不同，出品迥异
- 排名的"解构"（unraveled）暗示当前排名呈现了虚假的完整性

## 与其他文章的关联
- 与 "The Leaderboard Illusion" 直接呼应：排行榜背后是主观选择而非客观事实
- 与 "Trade-Offs Between Diversity and Stability" 相关：任务选择影响多样性-稳定性平衡
- 与 MixEval 相关：MixEval 提出了一种特定的"最优配方"
- 与 "Elo Uncovered" 互补：Elo 是一种特定的排名算法/配方
