# Holistic Evaluation of Language Models (HELM)

> 原文链接：https://arxiv.org/abs/2211.09110
> 作者/来源：Stanford CRFM / Percy Liang 等
> 阅读日期：2026-05-06

## 一句话总结
Stanford 提出的全面评估框架 HELM，通过多场景、多指标、标准化评估协议实现 LLM 的多维度透明评估。

## 核心论点
- 现有评估碎片化严重，不同论文使用不同设置难以比较
- 需要统一的评估框架覆盖多种场景（scenarios）和多种指标（metrics）
- 评估应超越准确率，涵盖公平性、鲁棒性、校准性、效率等多维度

## 关键概念
- **Holistic Evaluation**：覆盖多场景 × 多指标的完整评估矩阵
- **Scenarios**：标准化的评估场景（如问答、摘要、信息抽取等）
- **Metrics Taxonomy**：准确率、校准性、鲁棒性、公平性、偏见、毒性、效率
- **Standardized Protocol**：统一的评估协议确保公平比较
- **Transparency**：所有评估细节公开可复现

## 实践建议
- 使用 HELM 作为 baseline 评估框架，必要时在其上扩展
- 评估报告应覆盖多个维度而非仅报告准确率
- 标准化评估协议可以大幅提高可比性
- 参考 HELM 的场景分类设计自己的评估体系

## 独到观点
- "Holistic"意味着拒绝单一维度的排名——这与排行榜文化形成张力
- HELM 的透明度理念：不仅展示结果，更展示过程

## 与其他文章的关联
- 与 "What Are We Measuring" 相关：HELM 的多维度是否真的多维？
- 与 "Lessons from Trenches" 相关：HELM 试图解决可复现性问题
- 与 "Toward Evaluation Science" 呼应：HELM 是评估制度化的尝试
- 与 MixEval 形成对比：HELM 是全面评估，MixEval 是高效评估