# LLM Comparator: A Tool for Human-Driven LLM Evaluation

> 原文链接：https://pair.withgoogle.com/explorables/llm-comparator
> 作者/来源：Google PAIR (People + AI Research)
> 阅读日期：2026-05-06

## 一句话总结
Google PAIR 介绍 LLM Comparator 工具的设计理念与使用方法，强调自动化评分不应替代人类判断，而应为人类提供结构化的分析视角。

## 核心论点
1. 自动化 LLM 评测（如 win-rate）只能提供表面的数值对比，无法回答"为什么一个模型更好"
2. 人类评估者需要工具来高效浏览、过滤和理解大量评测样本
3. LLM Judge 生成的 rationale 比单纯的分数更有价值，但需要人类验证
4. 评测不是一次性事件，而是迭代式的探索性分析过程

## 关键概念
- **Human-Driven Evaluation**：以人为中心的评测方式，工具辅助而非替代人类判断
- **Rationale Analysis**：通过分析 judge 的判断理由来理解模型行为模式
- **Interactive Exploration**：通过交互式界面发现 aggregate metric 无法揭示的细微差异
- **Confidence Calibration**：让评估者判断 judge 评分的可信度

## 实践建议
- 不要仅看 win-rate，要深入查看"为什么赢"
- 关注 judge 给出高置信度和低置信度的样本差异
- 使用 clustering 功能发现系统性的模型弱点
- 将定量评测（自动 metric）与定性分析（LLM Comparator）结合使用

## 独到观点
- "自动评测告诉你发生了什么，人类分析告诉你为什么发生"
- Judge 模型的偏见可以通过人类审核 rationale 来发现和纠正
- 交互式可视化将评测从"得分报告"转变为"发现之旅"

## 与其他文章的关联
- 对应仓库为 PAIR-code/llm-comparator
- 与 Chatbot Arena 的 pairwise evaluation 方法论互补（Arena 侧重众包，Comparator 侧重专家分析）
- 与 LMSYS 的 ELO 排名系统形成方法论对话
- 强化了 LLM-as-Judge 范式中人类监督的必要性
