# Eureka: Evaluating and Understanding Large Foundation Models

> 原文链接：https://arxiv.org/abs/2409.10566
> 作者/来源：Microsoft Research
> 阅读日期：2026-05-06

## 一句话总结
微软提出的多模态 foundation model 评测标准化框架论文，系统性地定义了评测流程中各环节的规范，并通过实验揭示了评测设计选择对结果的显著影响。

## 核心论点
1. 当前 LLM/多模态模型评测存在严重的碎片化问题——不同团队对同一 benchmark 的实现差异可导致 10%+ 的得分波动
2. 评测流水线中的每个环节（数据预处理、prompt 构造、采样策略、后处理、metric 计算）都会显著影响最终结果
3. 需要一个标准化框架来确保评测结果的可复现性和跨模型可比性
4. 单一 aggregate score 不足以理解模型能力，需要多维度细粒度分析

## 关键概念
- **Evaluation Pipeline Standardization**：将评测拆解为数据、推理、后处理、打分四个独立可控阶段
- **Sensitivity Analysis**：系统性分析 prompt format、few-shot 数量、temperature 等超参对结果的影响
- **Capability Taxonomy**：按认知能力维度（推理、知识、感知、语言）组织评测结果
- **Reproducibility Gap**：不同实现间的结果差异量化

## 实践建议
- 评测报告应详细记录所有 pipeline 配置（prompt template、采样参数等）
- 避免仅报告单一聚合分数，应提供按能力维度的细粒度分析
- 在比较模型时确保使用完全相同的评测 pipeline
- 对关键决策应进行 sensitivity analysis 以理解结果稳健性

## 独到观点
- 评测不应仅被视为"给模型打分"，而是"理解模型能力边界"的工具
- 许多公开 leaderboard 的排名可能因实现差异而误导
- 多模态评测比纯文本评测面临更多标准化挑战（图像预处理、分辨率等）

## 与其他文章的关联
- 开源实现为 eureka-ml-insights 仓库
- 与 lm-evaluation-harness 的 YAML 声明式方法理念相近但更强调标准化
- 与 SCORE (NVIDIA) 论文同样关注评测方法论问题
- 为 Hugging Face Open LLM Leaderboard 的评测标准化讨论提供理论支撑