# LLM Comparator

> 仓库地址：https://github.com/PAIR-code/llm-comparator
> 作者/组织：Google PAIR (People + AI Research)
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
Google PAIR 团队开发的交互式可视化工具，专注于让人类评估者通过 side-by-side 对比深度分析两个 LLM 的输出差异与质量。

## 项目定位与架构
LLM Comparator 定位为"人类驱动的 LLM 评估"可视化工具，填补了自动化 metric 和人工评估之间的鸿沟。架构分为：(1) **Python Library**——负责数据准备、调用 LLM judge 生成评分与 rationale；(2) **Web App（TypeScript/Lit）**——交互式可视化前端，支持排序、过滤、聚类分析。工具不做最终判断，而是赋能人类理解模型差异。

## 关键技术特性
- **Side-by-side 对比界面**：并排展示两个模型对同一 prompt 的回答
- **LLM Judge 集成**：自动生成逐项评分和文字 rationale
- **交互式过滤与排序**：按分数、类别、关键词等维度筛选分析
- **Rationale 可视化**：展示 judge 模型的评判理由，增强可解释性
- **Clustering 分析**：自动将相似 prompt/response 聚类发现模式
- **可嵌入设计**：Web Component 可嵌入 Colab notebook 或独立部署

## 设计亮点与创新
1. **Human-in-the-loop 哲学**：工具辅助人做判断而非替代人
2. **Rationale-first 设计**：强调"为什么 A 比 B 好"而非仅展示分数
3. **多层次分析**：从全局统计到单条样本的 drill-down
4. **轻量级 Web Component**：无需后端服务器即可运行前端

## 局限性与风险
- 仅支持两模型对比（A vs B），不支持多模型同时比较
- 依赖 LLM Judge 的质量，judge 偏见会传播到分析中
- 对大规模评测（10000+ 样本）的可视化性能可能受限
- 主要面向定性分析，定量统计能力相对基础

## 与生态系统的关联
- 体现 Google PAIR 团队"负责任 AI"和"人机协作"研究理念
- 与 Chatbot Arena 的 pairwise 评估方法论相呼应
- 补充了 lm-evaluation-harness 等自动化评测框架缺乏的定性分析能力
- 可与任何生成评测 JSON 的 pipeline 集成使用