# Aligning with Human Judgement: Pairwise Preference

> 原文链接：https://arxiv.org/abs/2403.16950
> 作者/来源：arXiv 2024
> 阅读日期：2026-05-06

## 一句话总结
研究如何让 LLM-as-Judge 的 pairwise preference 判断更好地与人类判断对齐，分析了影响对齐度的关键因素。

## 核心论点
- Pairwise preference（A vs B 哪个更好）是 LLM-as-Judge 最常用的模式，也是 RLHF 的基础
- 当前 LLM 的 pairwise 判断与人类判断的一致性在 60-80% 之间，仍有较大提升空间
- 影响对齐度的因素包括：prompt 设计、评估维度的明确性、示例质量、候选回答的质量差距
- 对于质量接近的 pair，LLM 和人类的分歧最大——这恰恰是最需要判断的场景
- 提出了一系列提升对齐度的策略：更细化的 rubric、reference answer、分维度评估后综合

## 关键概念
- **Pairwise Preference**：两两比较并选择更好者的评估模式
- **Human-LLM Agreement**：LLM 判断与人类偏好的一致率
- **Preference Strength**：偏好的强度（轻微更好 vs 明显更好）
- **Dimensional Decomposition**：将整体偏好分解为多维度分别评估
- **Reference-Guided Evaluation**：使用参考答案辅助判断

## 实践建议
- 在 pairwise comparison 中提供明确的评估维度和权重
- 对于质量接近的 pair，考虑允许 "tie" 选项而非强制选择
- 使用 reference answer 可以显著提升对齐度，尤其在专业领域
- 先分维度评估，再综合判断，比直接给出整体偏好更可靠
- 记录偏好强度（而非仅 binary choice），为后续 Elo/BT 计算提供更多信息

## 独到观点
论文暗示 pairwise preference 的"简单性"是一种误导：看似只是选 A 或 B，但实际上需要复杂的多维度权衡。人类做这种判断时也常常不一致，LLM 的不一致可能反映了任务本身的内在模糊性。

## 与其他文章的关联
- 与 "Judging LLM-as-Judge with Chatbot Arena" 直接相关：Arena 使用 pairwise comparison
- 与 "MemAlign" 互补：MemAlign 通过记忆检索提升对齐度
- 与 "Inconsistent and Biased Evaluators" 相关：pairwise 模式下的偏差分析
