# Eureka: A Framework for Standardizing Evaluations

> 原文链接：https://arxiv.org/abs/2409.10566
> 作者/来源：Microsoft Research
> 阅读日期：2026-05-06

## 一句话总结
Eureka 框架的学术论文，阐述了标准化 LLM 评估的设计原则和方法论。

## 核心论点
- 当前 LLM 评估缺乏标准化，导致不同论文的结果难以比较
- 评估流程中的每个环节（数据处理、推理设置、指标计算）都可能引入变异
- 标准化不意味着僵化——框架应在标准化和灵活性之间取得平衡
- 深入的错误分析比单一分数更有价值

## 关键概念
- **Evaluation standardization**：统一评估流程中的关键变量
- **Inference configuration**：temperature、top-p、max tokens 等推理参数的标准化
- **Prompt template sensitivity**：模型对 prompt 格式的敏感性分析
- **Error taxonomy**：错误类型的系统分类
- **Capability profiling**：模型能力画像

## 实践建议
- 报告评估结果时应完整披露所有推理参数和 prompt 模板
- 对同一任务使用多种 prompt 格式测试，报告最佳和平均性能
- 建立错误分析流程，将错误分类为知识缺失、推理失败、格式错误等
- 使用版本控制管理评估配置，确保可追溯

## 独到观点
- 强调"评估的可重复性危机"——许多论文的结果无法被他人复现
- 将软件工程的最佳实践（CI/CD、版本控制）引入评估流程
- 指出 prompt template 的微小变化可能导致 10%+ 的性能差异

## 与其他文章的关联
- 是 eureka-ml-insights 仓库的配套论文
- 与 "Toward an evaluation science" 的标准化呼吁一致
- 对 lm-evaluation-harness 的设计决策提供了学术论证
