# Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators

> 原文链接：https://arxiv.org/abs/2403.16950
> 作者/来源：（学术论文，2024）
> 阅读日期：2026-05-06

## 一句话总结
研究 pairwise preference（配对偏好比较）在 LLM 评估中的角色，分析其与人类判断对齐的机制和条件。

## 核心论点
- Pairwise comparison 是最接近人类自然判断模式的评估方式
- 与 pointwise scoring 相比，pairwise 更稳定且更易与人类对齐
- 但 pairwise 也有其固有局限：intransitivity、position bias、成本（O(n²)）

## 关键概念
- **Pairwise Preference**：直接比较两个输出哪个更好
- **Pointwise vs. Pairwise**：绝对打分 vs. 相对比较的权衡
- **Human Alignment**：与人类偏好判断的一致性
- **Transitivity**：A>B, B>C → A>C 是否成立
- **Scaling Challenge**：n 个模型需要 O(n²) 次比较

## 实践建议
- 对于主观性强的任务优先使用 pairwise comparison
- 使用 Swiss-system 或 Elo 方法减少所需比较次数
- 通过 position swap 验证 transitivity
- 结合 pairwise 和 pointwise 的互补优势

## 独到观点
- Pairwise 的心理学基础更强：人类天然擅长比较而非绝对评分
- Intransitivity 的存在意味着"全局排名"可能本身就不存在

## 与其他文章的关联
- 与 "Elo Uncovered" 直接相关：Elo 基于 pairwise comparison
- 与 "Judging LLM-as-Judge with Chatbot Arena" 相关：Arena 使用 pairwise
- 与 "Inconsistent and Biased Evaluators" 相关：pairwise 中的 position bias
- 与 LLM-as-Judge Survey 相关：pairwise 是三种评估粒度之一
