# Inconsistent and Biased Evaluators

> 原文链接：https://arxiv.org/abs/2405.01724
> 作者/来源：Grammarly
> 阅读日期：2026-05-06

## 一句话总结
Grammarly 的研究系统性地揭示 LLM Judge 的不一致性和偏差问题，并量化了这些问题在实际应用中的影响程度。

## 核心论点
- LLM Judge 存在严重的不一致性：相同输入不同次评估给出不同结果，比例远超预期
- 偏差是系统性的，不是随机噪声：verbosity bias（偏好长回答）、position bias（偏好第一个选项）、self-enhancement bias（偏好自己系列的输出）
- 这些偏差在实际产品评估中可能导致错误决策（如选择了更长但质量更低的模型输出）
- 不一致性和偏见是两个独立的问题，需要不同的应对策略
- 简单的 mitigation 策略（如 swap 测试）只能部分缓解问题

## 关键概念
- **Verbosity Bias**：评估者系统性地偏好更长的回答
- **Position Bias**：偏好特定位置（通常是第一个）的选项
- **Self-Enhancement Bias**：模型倾向于给同系列模型更高评分
- **Inconsistency Rate**：同一评估重复执行后结果不同的比例
- **Style Bias**：偏好特定写作风格（如列表、markdown 格式）

## 实践建议
- 在所有 pairwise evaluation 中执行 AB/BA swap，用两次结果的一致性作为质量指标
- 控制被评估文本的长度，或在 rubric 中明确"长度不应影响评分"
- 混合使用多个不同系列的模型做 judge 以降低 self-enhancement
- 对评估结果进行 calibration：用已知质量的样本校准评分标准
- 量化并报告 judge 的不一致性（多次评估同一样本）

## 独到观点
Grammarly 作为文本质量产品公司，其发现具有很强的实践意义：在真实产品场景中，LLM Judge 的偏差可能导致选择了更"讨好"模型但实际更差的输出。偏见和不一致性是两个独立问题——消除偏见不能解决不一致，反之亦然。

## 与其他文章的关联
- 与 "Style Over Substance" 紧密相关：都在揭示 judge 被表面特征误导的问题
- 与 "How to Correctly Report LLM-as-Judge" 互补：本文发现偏差，后者要求报告偏差
- 与 "Language Model Council" 和 "Replacing Judges with Juries" 相关：多 judge 方案是应对偏差的策略之一
- 与 "Analyzing Uncertainty" 相关：不一致性是 aleatoric uncertainty 的表现
