# Towards Evaluation Guidelines for Empirical Studies Involving LLMs

> 原文链接：https://arxiv.org/abs/2411.07668
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
为涉及 LLM 的实证研究提出评估指南，旨在提升研究报告的规范性和可比较性。

## 核心论点
- 涉及 LLM 的实证研究缺乏统一的评估规范，导致结论难以比较和复现
- 需要从实验设计、报告标准、统计分析等多个维度建立指南
- 当前论文中的评估方法选择往往是临时性的而非有理论支撑的

## 关键概念
- **Evaluation Guidelines**：标准化的评估报告规范
- **Experimental Design**：涉及 LLM 的实验设计最佳实践
- **Reporting Standards**：应报告哪些信息以支持复现和比较
- **Statistical Rigor**：统计方法的恰当使用（显著性检验、效应量等）
- **Confounding Variables**：LLM 评估中的混淆变量控制

## 实践建议
- 明确报告模型版本、API参数（temperature、top-p等）、评估时间
- 使用多次运行并报告方差
- 控制混淆变量（如 prompt 格式、上下文长度）
- 区分探索性研究和验证性研究的评估标准

## 独到观点
- 将 LLM 实证研究纳入传统科学方法论框架是必要的正常化步骤
- 指南的价值不仅在于规范作者，更在于帮助审稿人识别评估中的缺陷

## 与其他文章的关联
- 与 "Lessons from Trenches" 高度互补：一个提供经验教训，一个提供规范指南
- 与 "Toward Evaluation Science" 对齐：指南是制度化的具体表现
- 与 "Adding Error Bars" 相关：统计严谨性是指南的核心内容
