# Lessons from the Trenches on Reproducible Evaluation of Language Models

> 原文链接：https://arxiv.org/abs/2405.14782
> 作者/来源：（学术社区多机构合作）
> 阅读日期：2026-05-06

## 一句话总结
从实践中总结 LLM 可复现评估的经验教训，揭示看似微小的实现细节如何导致不可复现的评估结果。

## 核心论点
- LLM 评估的可复现性（reproducibility）面临严峻挑战
- 大量"隐性选择"（implicit choices）影响评估结果：tokenization、prompt格式、解码策略、后处理等
- 缺乏标准化导致不同团队对同一模型的评估结果差异巨大

## 关键概念
- **Reproducibility**：其他研究者能否复现相同评估结果
- **Hidden Hyperparameters**：影响评估但通常不报告的隐性参数
- **Evaluation Harness**：评估框架的具体实现细节（如 lm-evaluation-harness）
- **Format Sensitivity**：模型对输入格式（few-shot模板、指令格式）的敏感性
- **Post-Processing**：输出解析和答案提取的差异

## 实践建议
- 详细记录并公开所有评估参数和实现细节
- 使用标准化评估框架并报告框架版本
- 评估时固定随机种子并报告多次运行的方差
- 公开评估代码和完整配置以支持复现

## 独到观点
- "Trenches"隐喻暗示评估工作是一场艰苦的战役，细节决定成败
- 可复现性危机不仅是技术问题，更是社区规范问题
- 评估框架的 bug 可能比模型差异对结果影响更大

## 与其他文章的关联
- 与 SCORE 直接相关：prompt 敏感性是不可复现的主要来源
- 与 "Adding Error Bars" 互补：即使有 error bars，不可复现的结果仍然无意义
- 与 HELM 相关：HELM 试图通过标准化解决复现性问题
- 与 "Toward Evaluation Science" 呼应：科学需要可复现性作为基石
