# ZeroEval

> 仓库地址：https://github.com/WildEval/ZeroEval
> 作者/组织：Allen AI (WildEval)
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
Allen AI 开发的 zero-shot LLM 评估框架，强调无需 few-shot 示例的纯粹能力测试。

## 项目定位与架构
- 聚焦 zero-shot 评估，测试模型在没有 in-context examples 的情况下的真实能力
- 覆盖多个评估维度：推理、知识、指令遵循等
- 提供统一的评估接口和结果可视化
- 定期更新排行榜

## 关键技术特性
- **Zero-shot only**：所有评估均在 zero-shot 设置下进行，消除 few-shot 设计的变异性
- **Multiple benchmarks**：整合多个子 benchmark 提供综合评估
- **Standardized prompting**：统一的 prompt 格式减少格式对结果的影响
- **Leaderboard**：维护公开的模型排名
- **Easy extension**：支持添加新的评估任务

## 设计亮点与创新
- Zero-shot 设置消除了 few-shot example 选择带来的不确定性
- 更真实地反映模型的"即用"能力（用户通常不提供 examples）
- 评估流程简洁，减少了超参数调优的空间

## 局限性与风险
- Zero-shot 可能不利于需要格式引导的任务
- 某些模型在 few-shot 下表现显著更好，zero-shot 可能低估其能力
- 仓库活跃度和社区采纳度相比 lm-evaluation-harness 较小

## 与生态系统的关联
- 与 EleutherAI lm-evaluation-harness 的 zero-shot 模式有重叠
- 与 Open LLM Leaderboard 使用不同的评估设置
- 作为 Allen AI 生态的一部分，与其他 AI2 项目互补
