# AlpacaEval

> 仓库地址：https://github.com/tatsu-lab/alpaca_eval
> 作者/组织：Stanford Tatsu Lab
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
自动化 LLM instruction-following 评估工具，使用 LLM-as-Judge 计算模型相对于 baseline 的 win rate。

## 项目定位与架构
- 评估 LLM 的 instruction-following 能力
- 使用 805 个 instruction 作为测试集
- 用 LLM judge（默认 GPT-4-Turbo）对比目标模型与 baseline 模型的回答
- 输出 win rate 和 length-controlled win rate

## 关键技术特性
- **805 diverse instructions**：来自多个数据源的多样化指令集
- **Automated LLM judge**：可配置的 judge 模型
- **Win rate metric**：相对于 reference model 的胜率
- **Length-controlled variant**：消除长度偏差的改进版
- **Leaderboard**：维护公开的模型排名
- **Easy to run**：简单的 CLI 接口

## 设计亮点与创新
- 评估成本极低（相比人类评估），适合频繁迭代
- 与 Chatbot Arena 排名相关性高，验证了方法有效性
- Length-controlled 版本解决了 verbosity gaming 问题
- 开源且易于定制

## 局限性与风险
- 依赖 GPT-4 作为 judge，受其偏好影响
- 805 个 prompt 覆盖面有限
- 仅评估单轮 instruction following，不涵盖多轮对话
- Judge 模型更新后历史结果不可比

## 与生态系统的关联
- 与 ArenaHard 竞争同一生态位，但方法不同
- Length-Controlled AlpacaEval 论文是其重要改进
- 与 LMSys Chatbot Arena 互为线上/线下评估的关系
- LLMs-as-Judges 综述涵盖了其方法论基础