# Open LLM Leaderboard

> 仓库地址：https://huggingface.co/spaces/open-llm-leaderboard/blog
> 作者/组织：Hugging Face
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
Hugging Face 维护的开放 LLM 排行榜，是社区最广泛引用的模型能力评估平台之一。

## 项目定位与架构
- 为开源 LLM 社区提供统一、透明的评估平台
- 使用 EleutherAI lm-evaluation-harness 作为评估后端
- 从 V1 演进到 V2，更换了底层 benchmark 套件以应对 saturation 和 contamination
- 所有评估结果公开可查，支持社区提交模型

## 关键技术特性
- **V2 benchmark suite**：IFEval、BBH、MATH Lvl 5、GPQA、MuSR、MMLU-Pro 六大评估集
- **Standardized evaluation**：统一的推理设置（temperature、max tokens 等）
- **Reproducibility**：完全可重复的评估流程，基于确定性推理
- **Community-driven**：任何人可提交模型评估请求
- **Automatic scheduling**：排队系统自动处理评估请求

## 设计亮点与创新
- V1 到 V2 的演进体现了对 benchmark saturation 的主动应对
- 选择更难的 benchmark 重新拉开模型差距
- 公开透明的评估流程增加了结果的可信度
- 与 Hugging Face Hub 深度集成，降低使用门槛

## 局限性与风险
- 仅评估开源/开放权重模型，不包含 GPT-4、Claude 等闭源模型
- Benchmark 固定后仍面临 gaming 和 contamination 风险
- 无法衡量真实用户体验（如对话质量、指令遵循的自然度）
- V1 → V2 的切换导致历史数据不可比

## 与生态系统的关联
- 使用 EleutherAI lm-evaluation-harness 作为基础设施
- 与 ArenaHard、AlpacaEval 等形成互补评估体系
- 影响了 HF Hub 上模型的热度和下载量
- Benchmark² 论文可用于评估该 leaderboard 所选 benchmark 的质量
