# Rankers, Judges, and Assistants: Understanding the Interplay of LLMs in IR Evaluation

> 原文链接：https://arxiv.org/abs/2503.19092v1
> 作者/来源：Krisztian Balog, Donald Metzler, Zhen Qin (Google DeepMind)
> 阅读日期：2026-05-06

## 一句话总结
当 LLM 同时扮演排序器、评判者和助手多重角色时，角色间的交互会引入系统性偏见，威胁评估的公平性。

## 核心论点
- LLM 在信息检索系统中承担多种角色：生成内容（assistant）、排序结果（ranker）、评估质量（judge）
- 当 judge 评估 ranker 的输出时，存在系统性偏见（prejudicial behavior）
- 同族 LLM 间可能存在隐性的"自我偏好"效应

## 关键概念
- **Role Interplay**：LLM 多角色交互引发的评估偏差
- **LLM Judge Bias**：LLM 评判者对 LLM 排序器输出的偏好性
- **AI-Generated Content Discrimination**：对 AI 生成内容的系统性歧视（本文发现证据不足）
- **Evaluation Ecosystem**：当生成、排序、评估都由 LLM 完成时形成的闭环系统

## 实践建议
- 评估 pipeline 中应避免相同 LLM 既做生成又做评判
- 需要独立的评估通道来检测 LLM judge 的偏见
- 在 LLM-as-Judge 场景下应系统性检查 judge 对不同来源内容的差异化对待
- 关注 evaluation ecosystem 中的利益冲突

## 独到观点
- 反直觉发现：未发现 LLM judge 对 AI 生成内容的系统性歧视，与先前研究矛盾
- 当整个 IR pipeline 都由 LLM 驱动时，评估的独立性从根本上受到挑战

## 与其他文章的关联
- 与 "Judging LLM-as-Judge" 直接相关：都在审视 LLM 评判者的可靠性
- 与 "Style Over Substance" 相关：judge 可能偏好特定风格而非内容质量
- 与 "Who Validates the Validators?" 呼应：谁来评估评估者？
- 与 "Generative AI Paradox on Evaluation" 相关：生成能力强不代表评估能力强
